Você está na página 1de 234

Ao relatar os dados, sua primeira decisão é a de usar texto, um gráfico ou uma tabela.

Você
quer ser sucinto, então você não deve apresentar os mesmos valores de múltiplas maneiras: se
você tiver um gráfico mostrando alguns resultados, então não produza também uma tabela
dos mesmos resultados: é um desperdício de espaço. O APA fornece as seguintes diretrizes:

✓ Escolha um modo de apresentação que otimize a compreensão dos dados.

✓ Se você apresentar três ou menos números, tente usar uma frase.

✓ Se você precisa apresentar entre 4 e 20 números, considere uma tabela.

✓ Se você precisar apresentar mais de 20 números, um gráfico geralmente é mais útil do que
uma tabela.

Destes, acho que o primeiro é o mais importante: posso pensar em inúmeras situações em que
eu gostaria de usar um gráfico em vez de uma tabela para apresentar valores 4-20 porque um
gráfico mostrará o padrão de dados com maior clareza. Da mesma forma, posso imaginar
alguns gráficos que apresentam mais de 20 números sendo uma bagunça absoluta. Isso me
leva de volta ao meu ponto em que as regras não são um substituto do senso comum, e o mais
importante é apresentar os dados de uma maneira que facilita a leitura do leitor. Veremos
como apresentar gráficos no Capítulo 4 e analisaremos a tabulação de dados em vários
capítulos quando discutimos a melhor forma de denunciar os resultados de análises
específicas.

Uma segunda questão geral é a quantidade de casas decimais a serem usadas ao reportar
números. O principal orientador da APA (que eu acho sensível) é que a menor decimal

Coloca o melhor, o que significa que você deve arredondar o máximo possível, mas tenha em
mente a precisão da medida que você está reportando. Este princípio reflete novamente
tornando fácil para o leitor entender os dados. Vejamos um exemplo. Às vezes, quando uma
pessoa não responde a alguém, eles vão perguntar: 'O que há de errado? O gato pegou sua
língua? "Na verdade, meu gato tem uma grande coleção de línguas humanas cuidadosamente
preservadas que ele mantém em uma caixa sob as escadas. Periódicamente, ele pegará um,
põe-o na boca e anda por a vizinhança assustando as pessoas com sua grande língua. Se eu
medei a diferença de comprimento entre sua língua real e sua língua humana falsa, eu poderia
relatar essa diferença como 0,0425 metros, 4,25 centímetros, ou 42,5 milímetros. Este
exemplo ilustra três pontos: (1) Eu precisava de um número diferente de casas decimais (4, 2 e
1, respectivamente) para transmitir a mesma informação em cada caso; (2) 4,25 cm
provavelmente é mais fácil para alguém digerir do que 0,0425 metros porque ele usa menos
casas decimais, e (3) meu gato é estranho. O primeiro ponto demonstra que não é o caso que
você sempre use, digamos, duas casas decimais; Você deve usar o que for necessário em uma
situação particular. O segundo ponto implica que, se você tiver uma medida muito pequena,
vale a pena considerar se você pode usar uma escala diferente para tornar os números mais
palatáveis.

Finalmente, cada conjunto de diretrizes incluirá conselhos sobre como denunciar análises
específicas.
E estatísticas. Por exemplo, ao descrever os dados com uma medida de tendência central, a
APA sugere que você use M (capital M em itálico) para representar a média, mas está bem
com você usando a notação matemática (X -) também. No entanto, você deve ser consistente:
se você usar M para representar o significado que você deve fazer em seu artigo. Existe
também um princípio sensato de que, se você informar um resumo dos dados, como a média,
você também deve informar a medida apropriada da propagação dos escores. Então, as
pessoas não conhecem apenas a localização central dos dados, mas também a forma como se
espalhou. Portanto, sempre que relatamos a média, geralmente relatamos o desvio padrão
também. O desvio padrão é geralmente denotado por SD, mas também é comum
simplesmente colocá-lo entre parênteses, desde que você indique que você está fazendo isso
no texto. Aqui estão alguns exemplos deste capítulo:

✓ Andy tem 2 amigos no Facebook. Em média, uma amostra de outros usuários (N 􀀠 11) teve
consideravelmente mais, M 􀀠 95, SD 􀀠 56,79.

✓ O número de suicídios em Beachy Head por ano, X

􀀠 36, SD 􀀠 13, foi maior do que

A média nacional.

✓ Ao ler este capítulo, descobrimos que (SD entre parênteses), em média, as pessoas têm 95
(56,79) amigos no Facebook e há 36 (13) suicídios por ano em Beachy Head.

Observe que, no primeiro exemplo, usei N para indicar o tamanho da amostra. Esta é uma
abreviatura comum: uma N principal é a amostra inteira e uma minúscula n representa uma
subamostra (por exemplo, a quantidade de casos em um grupo específico). Da mesma forma,
quando relatamos medianas, há uma notação específica (a APA sugere Mdn) e devemos
relatar a faixa ou intervalo interquartil também (a APA não tem uma abreviatura para nenhum
desses termos, mas IQR é comumente usado para o interquartil alcance). Portanto, podemos
relatar:

✓ Andy tem 2 amigos no Facebook. Uma amostra de outros usuários (N 􀀠 11) geralmente tinha
mais, Mdn 􀀠 98, IQR 􀀠 63.

✓ Andy tem 2 amigos no Facebook. Uma amostra de outros usuários (N 􀀠 1

Google Tradutor para empresas:Google Toolkit de tradução para appsTradutor de sites

Vamos dar um passo atrás e pensar o que aconteceria se não introduzíssemos uma
manipulação experimental (ou seja, não havia bananas na segunda fase de treinamento,
portanto a condição 1 e a condição 2 eram idênticas). Se não houver manipulação
experimental, esperamos que o comportamento de um chimpanzé seja semelhante em ambas
as condições. Nós esperamos isso porque fatores externos como idade, gênero, QI, motivação
e excitação serão os mesmos para ambas as condições (o gênero de um chimpanzé, etc., não
mudará de onde eles são testados na condição 1 para quando são testados na condição 2) . Se
a medida de desempenho é confiável (ou seja, nossa prova de quão bem eles correm a
economia), e a variável ou característica que estamos medindo (neste caso, capacidade de
administrar uma economia) permanece estável ao longo do tempo, então o desempenho de
um participante em condição 1 deve estar muito relacionado ao seu desempenho na condição
2. Então, os chimpanzés que obtêm alta na condição 1 também marcarão altamente na
condição 2, e aqueles com baixa pontuação para a condição 1 terão baixa pontuação na
condição 2. No entanto, o desempenho não será idêntico; haverá pequenas diferenças de
desempenho criadas por fatores desconhecidos. Essa variação no desempenho é conhecida
como variação não sistemática.

Se introduzirmos uma manipulação experimental (ou seja, fornecemos bananas como


feedback em uma das sessões de treinamento), então fazemos algo diferente aos participantes
na condição 1 do que o que fazemos na condição 2. Portanto, a única diferença entre as
condições 1 e 2 é a manipulação que o experimentador fez (neste caso, os chimpanzés obtêm
bananas como uma recompensa positiva em uma condição, mas não na outra). Portanto,
qualquer diferença entre as médias das duas condições provavelmente deve-se ao
experimento manipulação. Então, se os chimpanzés funcionam melhor em uma fase de
treinamento do que o outro, isso deve ser devido ao fato de que as bananas foram usadas
para fornecer feedback em uma fase de treinamento, mas não a outra. As diferenças de
desempenho criadas por uma manipulação experimental específica são conhecidas como
variação sistemática.

Agora vamos pensar sobre o que acontece quando usamos diferentes participantes - um
design independente. Neste projeto ainda temos duas condições, mas desta vez participantes
diferentes participam de cada condição. Voltando ao nosso exemplo, um grupo de chimpanzés
recebe treinamento sem feedback, enquanto um segundo grupo de chimpanzés diferentes
recebe feedback sobre o seu desempenho através de bananas. Imagine novamente que não
tivemos uma manipulação experimental. Se não fizessemos nada aos grupos, então ainda
encontraríamos alguma variação no comportamento entre os grupos porque eles contêm
chimpanzés diferentes que variam em sua capacidade, motivação, propensão para se distrair
de correr a economia jogando suas próprias fezes e outros Fatores. Em suma, o tipo de fatores
que foram mantidos constantes no design de medidas repetidas são livres de variar no design
independente. Assim, a variação não sistemática será maior do que para um design de
medidas repetidas. Como antes, se introduzirmos uma manipulação (ou seja, bananas),
veremos variação adicional criada por essa manipulação. Como tal, tanto no design de
medidas repetidas quanto no design independente, há sempre duas fontes de variação:

Variação sistemática: esta variação deve-se ao experimentador fazer algo em uma condição,
mas não na outra condição.
Variação não sistemática: esta variação resulta de fatores aleatórios que existem entre as
condições experimentais (como diferenças naturais de habilidade, hora do dia, etc.).

Os testes estatísticos geralmente são baseados na idéia de estimar a quantidade de variação


no desempenho, e comparando o quanto isso é sistemático quanto não é sistemático. Em um
design de medidas repetidas, as diferenças entre duas condições podem ser causadas por
apenas duas coisas: (1) a manipulação que foi realizada nos participantes, ou (2) qualquer
outro fator que possa afetar a maneira pela qual uma entidade é executada uma vez para a
próxima. O último fator provavelmente será bastante menor em comparação com a influência
da manipulação experimental. Em um design independente, as diferenças entre as duas
condições também podem ser causadas por uma das duas coisas: (1) a manipulação que foi
realizada nos participantes, ou (2) diferenças entre as características das entidades alocadas a
cada um dos grupos . O último fator nesta instância é susceptível de criar uma variação
aleatória considerável tanto em cada condição como entre elas. Quando olhamos o efeito de
nossa manipulação experimental, é sempre contra um fundo de "ruído" causado por
diferenças aleatórias e incontroláveis entre nossas condições. Em um design de medidas
repetidas, este "ruído" é reduzido ao mínimo e, portanto, o efeito do experimento é mais
provável que apareça. Isso significa que, outras coisas sendo iguais, os projetos de medidas
repetidas têm mais poder para detectar efeitos do que esigns independentes.

Esta relação de variância sistemática a não-sistemática ou efeito de erro é uma


estatística de teste, e você descobrirá mais tarde no livro que há muitos deles: t, F e χ2,
para citar apenas três. A forma exata dessa equação muda dependendo da estatística
de teste que você está calculando, mas a coisa importante a lembrar é que todos eles,
grosseiramente falando, representam a mesma coisa: sinal a ruído ou a quantidade de
variância explicada pelo modelo. Nós ajustamos os dados em comparação com a
variância que não pode ser explicada pelo modelo (ver Capítulos 8 e 9 em particular
para uma explicação mais detalhada). A razão pela qual essa relação é tão útil é
realmente intuitiva: se o nosso modelo for bom, esperamos que ele seja capaz de
explicar mais variações do que não pode explicar. Nesse caso, a estatística de teste
será maior que 1 (mas não necessariamente significativa). Uma estatística de teste é
uma estatística para a qual sabemos a que frequência ocorrem diferentes valores. Eu
mencionei a distribuição t, a distribuição do qui-quadrado (χ2) e a distribuição F na
Seção 1.6.4 e disse que todos são definidos por uma equação que nos permite calcular
com precisão a probabilidade de obter uma determinada pontuação. Portanto, se uma
estatística de teste vem de uma dessas distribuições, podemos calcular a probabilidade
de obter um certo valor (assim como podemos estimar a probabilidade de obter uma
pontuação de um determinado tamanho de uma distribuição de frequência na Seção
1.6.4). Essa probabilidade é o valor p que Fisher descreveu e em NHST é usado para
estimar o quão provável seria que obteríamos uma estatística de teste pelo menos tão
grande como a que temos se não houvesse efeito (ou seja, a hipótese nula Eram
verdadeiras). As estatísticas de teste podem ser um pouco assustadoras, então
imaginemos que são gatinhos fofos. Os gatinhos são tipicamente muito pequenos
(cerca de 100 g no nascimento em média), mas de vez em quando um gato dará à luz
um grande (digamos, 150 g). Uma gatinha de 150 g é rara, então a probabilidade de
encontrar uma é muito pequena. Por outro lado, 100 g gatinhos são muito comuns,
então a probabilidade de encontrar um é bastante alta. As estatísticas de teste são as
mesmas que os gatinhos a este respeito: os pequenos são bastante comuns e os
grandes são raros. Então, se fizermos alguma pesquisa (ou seja, dar a luz a uma
gatinha) e calcular uma estatística de teste (pesar a gatinha), podemos calcular a
probabilidade de obter um valor (peso), pelo menos, grande. Quanto maior a variação
que nosso modelo explica em comparação com a variância que não pode explicar,
maior será a estatística de teste (ou seja, quanto mais a gatinha pesa) e quanto mais
improvável for ocorrer por acaso (como nosso gatinho de 150 g) . Como gatinhos, à
medida que as estatísticas de teste aumentam, a probabilidade de elas ocorrerem é
menor. Se usarmos o NHST convencional, então, quando essa probabilidade cair
abaixo de um certo valor (geralmente p <0,05), aceitamos isso como dando confiança
suficiente para assumir que a estatística de teste é tão grande como é porque nosso
modelo explica uma quantidade suficiente de Variação para refletir o que realmente
acontece no mundo real (a população). A estatística de teste é dita significativa. Dado
que o modelo estatístico que ajustamos aos dados reflete a hipótese que
estabelecemos para testar, então uma estatística de teste significativa nos diz que o
modelo provavelmente não seria adequado a esse poço se não houvesse efeito na
população (ou seja, A hipótese nula era verdadeira). Portanto, rejeitamos nossa
hipótese nula e ganhamos confiança de que a hipótese alternativa é verdadeira. Se, no
entanto, a probabilidade de obter uma estatística de teste pelo menos tão grande
como a que temos (se a hipótese nula fosse verdadeira) é muito grande (tipicamente
p> 0,05), então a estatística de teste é considerada não significativa e Rejeitamos a
hipótese alternativa (ver Seção 2.6.2.1 para uma discussão sobre o que significa
"estatisticamente significante").

Teste de significância de hipóteses nulas


A primeira abordagem que vamos discutir é chamada de teste de significância de
hipóteses nulas (NHST), que é um nome pesado para um processo igualmente pesado.
A NHST é a abordagem mais ensinada para testar questões de pesquisa com modelos
estatísticos. Ele surgiu de duas abordagens diferentes para o problema de como usar
dados para testar teorias: (1) a idéia de Ronald Fisher de probabilidades de
computação para avaliar a evidência e (2) a idéia de Jerzy Neyman e Egon Pearson de
hipóteses concorrentes.

P-valor de Fisher
Fisher (1925/1991) descreveu um experimento projetado para testar uma
reivindicação por uma mulher que ela poderia determinar, provando uma xícara de
chá, se o leite ou o chá foram adicionados primeiro ao copo. Fisher pensou que devia
dar à mulher algumas xícaras de chá, algumas das quais tinham o leite adicionado em
primeiro lugar e alguns dos quais tinham o leite adicionado por último, e ver se ela
poderia identificá-los corretamente. A mulher saberia que há um número igual de
copos em que o leite foi adicionado primeiro ou último, mas não saberia em qual
ordem os copos foram colocados. Se tomarmos a situação mais simples em que há
apenas duas xícaras, a mulher tem 50% de chances de adivinhar corretamente. Se ela
adivinhe corretamente, não teríamos tanto gosto de concluir que ela pode dizer a
diferença entre copos em que o leite foi adicionado e copos em que foi adicionado por
último, porque, mesmo supondo que ela estaria correta na metade do tempo. No
entanto, e se complicarmos coisas por seis copos? Há 20 ordens nas quais esses copos
podem ser organizados e a mulher adivinhar a ordem correta apenas 1 vez em 20 (ou
5% do tempo). Se ela obtivesse a ordem correta, ficaria muito mais confiante de que
ela realmente poderia dizer a diferença (e se reverter com sua paleta finamente
sintonizada). Se você quiser saber mais sobre Fisher e suas excentricidades de
degustação de chá, veja o excelente livro de David Salsburg The lady teasting tea
(Salsburg, 2002). Para os nossos propósitos, o ponto de levar a casa é só quando houve
uma probabilidade muito pequena de que a mulher pudesse completar a tarefa de chá
por sorte sozinha, concluiríamos que ela tinha habilidade genuína em detectar se o
leite foi derramado em uma xícara antes ou depois do chá.
Não é por acaso que escolhi o exemplo de seis copos acima (onde o provador de chá
teve 5% de chances de conseguir a tarefa corretamente adivinhando), porque os
cientistas tendem a acreditar que 5% é um limite útil para a confiança: somente
quando há uma chance de 5% (ou .05 probabilidade) de obter os dados que temos se
não houver efeito, temos confiança suficiente para aceitar que o efeito é genuíno.7 O
ponto básico de Fisher foi que você deve calcular a probabilidade de um evento e
avaliar isso dentro do contexto da pesquisa. Embora Fisher tenha sentido uma p = .01
seria evidência forte para respaldar uma hipótese, e talvez uma p = .20 seja uma
evidência fraca, ele nunca disse que p = 0,05 era, de qualquer forma, um número
especial.

Tipos de hipótese
Em contraste com Fisher, Neyman e Pearson acreditavam que as declarações
científicas deveriam ser divididas em hipóteses testáveis. A hipótese ou a predição de
sua teoria normalmente seria que um efeito estará presente. Esta hipótese é chamada
de hipótese alternativa e é indicada por H1. (Às vezes, também é chamado de hipótese
experimental, mas porque este termo se relaciona com um tipo específico de
metodologia, provavelmente é melhor usar "hipóteses alternativas"). Existe outro tipo
de hipótese chamada hipótese nula, que é denotada por H0. Esta hipótese é o oposto
da hipótese alternativa e, portanto, geralmente afirma que um efeito está ausente.
Muitas vezes, quando escrevo, meus pensamentos são atraídos para o chocolate. Eu
acredito que eu comeria menos se eu pudesse parar de pensar sobre isso. No entanto,
de acordo com Morewedge, Huh e Vosgerau (2010), isso não é verdade. Na verdade,
eles descobriram que as pessoas comiam menos comida se antes imaginassem comê-
la. Imagine que fizemos um estudo semelhante; Podemos gerar as seguintes hipóteses:
1. Hipótese alternativa: se você imaginar comer chocolate, você comerá menos.
2. Hipótese nula: se você imaginar comer chocolate, você comerá a mesma
quantidade que o normal.
A razão pela qual precisamos da hipótese nula é que não podemos provar a hipótese
experimental usando estatísticas, mas podemos coletar evidências para rejeitar a
hipótese nula. Se nossos dados nos dão confiança para rejeitar a hipótese nula, isso
fornece suporte para nossa hipótese experimental. No entanto, esteja ciente de que,
mesmo que possamos rejeitar a hipótese nula, isso não prova a hipótese
experimental - ela apenas o suporta. Então, ao invés de falar sobre aceitar ou rejeitar
uma hipótese (que alguns livros de texto lhe dizem para fazer) devemos falar sobre "as
chances de obter os dados que coletamos assumindo que a hipótese nula é
verdadeira".
Imagine em nosso estudo que levamos 100 pessoas e medimos quantos pedaços de
chocolate costumavam comer (dia 1). No dia 2, conseguimos que eles imaginassem
comer chocolate e novamente mediram a quantidade de chocolate que eles comiam
naquele dia. Imagine que descobrimos que 75% das pessoas comiam menos chocolate
no segundo dia do que o primeiro. Quando analisamos nossos dados, estamos
realmente perguntando: "Supondo que imaginar comer chocolate não tem nenhum
efeito, é provável que 75% das pessoas comam menos chocolate no segundo dia?"
Intuitivamente, a resposta é que as chances são muito baixas: Se a hipótese nula for
verdadeira, então todos devem comer a mesma quantidade de chocolate nos dois
dias. Portanto, é muito improvável que obtenhamos os dados que fizemos se a
hipótese nula fosse verdadeira.
E se descobrimos que apenas 1 pessoa (1%) com menos chocolate no segundo dia? Se
a hipótese nula for verdadeira e a imagem comendo chocolate não tem efeito sobre o
consumo, então nenhuma pessoa deve comer menos no segundo dia. As chances de
obter esses dados se a hipótese nula for verdadeira são, portanto, maiores que antes.
Quando nós colecionamos dados para testar teorias, temos que trabalhar nestes
termos: não podemos falar sobre a hipótese nula sendo verdadeira ou a hipótese
experimental sendo verdadeira, só podemos falar em termos da probabilidade de
obter um determinado conjunto de dados se, hipoteticamente falando, a hipótese nula
era verdadeira. Vamos elaborar essa idéia na próxima seção.
As hipóteses podem ser direcionais ou não direcionais. Uma hipótese direcional indica
que um efeito ocorrerá, mas também indica a direção do efeito. Por exemplo, "se você
imaginar comer chocolate, você comerá menos" é uma hipótese de uma única, porque
indica a direção do efeito (as pessoas comerão menos). Uma hipótese não direcional
afirma que um efeito ocorrerá, mas não indica a direção do efeito. Por exemplo,
"imaginar comer chocolate afeta a quantidade de chocolate que você come" não nos
diz se eles comerão mais ou menos.

Os princípios básicos da NHST


A NHST é uma mistura da idéia de Fisher de usar o valor de probabilidade p como
índice do peso da evidência contra uma hipótese nula, e a idéia de Jerzy Neyman e
Egon Pearson de testar uma hipótese nula contra uma hipótese alternativa (Neyman &
Earon, 1933). Não houve amor perdido entre esses estatistas concorrentes (Jane Box
3). NHST é um sistema projetado para nos dizer se a hipótese alternativa
provavelmente será verdadeira - isso nos ajuda a confirmar ou rejeitar nossas
previsões. Grosseiramente, esta é a lógica:
1. Assumimos que a hipótese nula é verdadeira (isto é, não há efeito).
2. Nós ajustamos um modelo estatístico aos nossos dados que representam a
hipótese alternativa e verão quão bem ela se encaixa (em termos da variância
que explica).
3. Para determinar o quão bem o modelo se ajusta aos dados, calculamos a
probabilidade (denominada p-value) de obter esse 'modelo' se a hipótese nula
fosse verdadeira.
4. Se essa probabilidade for muito pequena (o critério usual é 0,05 ou menos),
concluímos que o modelo se ajusta bem aos dados (ou seja, explica muita
variação nos escores) e assumimos que nossa previsão inicial é verdadeira:
ganhamos confiança na hipótese alternativa.
O que lembrar é que nunca podemos ter certeza absoluta de que qualquer das
hipóteses é correta; todos nós podemos calcular a probabilidade de que nosso modelo
se encaixe se não houvesse efeito na população (ou seja, a hipótese nula é verdadeira).
À medida que essa probabilidade diminui, ganhamos maior confiança de que a
hipótese alternativa é correta e que a hipótese nula pode ser rejeitada. Este processo
funciona apenas se fizermos nossas previsões antes de coletar os dados (ver Jane Box
Superbrain 2.4).
Esta relação de variância sistemática a não-sistemática ou efeito de erro é uma
estatística de teste, e você descobrirá mais tarde no livro que há muitos deles: t, F e χ2,
para citar apenas três. A forma exata dessa equação muda dependendo da estatística
de teste que você está calculando, mas a coisa importante a lembrar é que todos eles,
grosseiramente falando, representam a mesma coisa: sinal a ruído ou a quantidade de
variância explicada pelo modelo Nós ajustamos os dados em comparação com a
variância que não pode ser explicada pelo modelo (ver Capítulos 8 e 9 em particular
para uma explicação mais detalhada). A razão pela qual essa relação é tão útil é
realmente intuitiva: se o nosso modelo for bom, esperamos que ele seja capaz de
explicar mais variações do que não pode explicar. Nesse caso, a estatística de teste
será maior que 1 (mas não necessariamente significativa).
Uma estatística de teste é uma estatística para a qual sabemos a que frequência
ocorrem diferentes valores. Eu mencionei a distribuição t, a distribuição do qui-
quadrado (χ2) e a distribuição F na Seção 1.6.4 e disse que todos são definidos por
uma equação que nos permite calcular com precisão a probabilidade de obter uma
determinada pontuação. Portanto, se uma estatística de teste vem de uma dessas
distribuições, podemos calcular a probabilidade de obter um certo valor (assim como
podemos estimar a probabilidade de obter uma pontuação de um determinado
tamanho de uma distribuição de freqüência na Seção 1.6.4). Essa probabilidade é o
valor p que Fisher descreveu e em NHST é usado para estimar o quão provável seria
que obteríamos uma estatística de teste pelo menos tão grande como a que temos se
não houvesse efeito (ou seja, a hipótese nula Eram verdadeiras). As estatísticas de
teste podem ser um pouco assustadoras, então imaginemos que são gatinhos fofos. Os
gatinhos são tipicamente muito pequenos (cerca de 100 g no nascimento em média),
mas de vez em quando um gato dará à luz um grande (digamos, 150 g). Uma gatinha
de 150 g é rara, então a probabilidade de encontrar uma é muito pequena. Por outro
lado, 100 g gatinhos são muito comuns, então a probabilidade de encontrar um é
bastante alta. As estatísticas de teste são as mesmas que os gatinhos a este respeito:
os pequenos são bastante comuns e os grandes são raros. Então, se fizermos alguma
pesquisa (ou seja, dar a luz a uma gatinha) e calcular uma estatística de teste (pesar a
gatinha), podemos calcular a probabilidade de obter um valor (peso), pelo menos,
grande. Quanto maior a variação que nosso modelo explica em comparação com a
variância que não pode explicar, maior será a estatística de teste (ou seja, quanto mais
a gatinha pesa) e quanto mais improvável for ocorrer por acaso (como nosso gatinho
de 150 g) . Como gatinhos, à medida que as estatísticas de teste aumentam, a
probabilidade de elas ocorrerem é menor. Se usarmos o NHST convencional, então,
quando essa probabilidade cair abaixo de um certo valor (geralmente p <0,05),
aceitamos isso como dando confiança suficiente para assumir que a estatística de teste
é tão grande como é porque nosso modelo explica uma quantidade suficiente de
Variação para refletir o que realmente acontece no mundo real (a população). A
estatística de teste é dita significativa. Dado que o modelo estatístico que ajustamos
aos dados reflete a hipótese que estabelecemos para testar, então uma estatística de
teste significativa nos diz que o modelo provavelmente não seria adequado a esse
poço se não houvesse efeito na população (ou seja, A hipótese nula era verdadeira).
Portanto, rejeitamos nossa hipótese nula e ganhamos confiança de que a hipótese
alternativa é verdadeira. Se, no entanto, a probabilidade de obter uma estatística de
teste pelo menos tão grande como a que temos (se a hipótese nula fosse verdadeira) é
muito grande (geralmente p> 0,05), então a estatística de teste é considerada não
significativa e rejeitamos a hipótese alternativa (ver Seção 2.6.2.1 para uma discussão
sobre o que significa "estatisticamente significante").
Testes de uma e duas caudas
Nós vimos na Seção 2.6.1.2 que as hipóteses podem ser direcionais (por exemplo,
'quanto mais alguém lê este livro, mais eles querem matar seu autor') ou não
direcional (ou seja, "ler mais desse livro pode aumentar ou diminuir O desejo do leitor
de matar seu autor "). Um modelo estatístico que testa uma hipótese direcional é
chamado de teste de uma unha, enquanto que um testando uma hipótese não
direcional é conhecido como um teste de duas colas.
Imagine que queríamos descobrir se a leitura deste livro aumentava ou diminuía o
desejo de me matar. Se não possuímos hipótese direcional, existem três
possibilidades. (1) As pessoas que leem este livro querem me matar mais do que
aqueles que não a diferença (a média para aqueles que lêem o livro menos a média
para não leitores) é positiva. Correlacionalmente, quanto mais do livro você lê, mais
você quer me matar - um relacionamento positivo. (2) As pessoas que lêem estes livros
querem me matar menos do que aqueles que não a diferença (a média para aqueles
que lêem o livro menos a média para nonreaders) é negativa. Correlacionalmente,
quanto mais do livro você lê, menos você quer me matar - um relacionamento
negativo. (3) Não há diferença entre leitores e não leitores em seu desejo de me matar
- o significado para os leitores menos a média para os não leitores é exatamente zero.
Correlacionalmente, não há relação entre ler este livro e querer me matar. Esta opção
final é a hipótese nula. A direção da estatística de teste (ou seja, seja positiva ou
negativa) depende se a diferença é positiva ou negativa. Supondo que há uma
diferença positiva ou um relacionamento (ler este livro faz você querer me matar),
então, para detectar essa diferença, temos que levar em conta o fato de que o
significado para leitores é maior do que para os não leitores (e assim derivar um
Estatística de teste positivo). No entanto, se nós previamos incorretamente e, na
verdade, lendo este livro, os leitores querem me matar menos do que a estatística de
teste será realmente negativa.
Um erro de Tipo I ocorre quando acreditamos que existe um efeito genuíno em nossa
população, quando na verdade não existe. Se usarmos o critério convencional, a
probabilidade desse erro é 0,05 (ou 5%) quando não há efeito na população - esse
valor é conhecido como o nível α.
Supondo que não há efeito em nossa população, se replicarmos nossa coleta de dados
100 vezes, poderíamos esperar que, em cinco ocasiões, obtivêssemos uma estatística
de teste o bastante grande para nos fazer pensar que houve um efeito genuíno na
população, embora não haja.

O contrário é um erro de Tipo II, que ocorre quando acreditamos que não há efeito na
população quando, na realidade, existe. Isso ocorreria quando obtivemos uma
pequena estatística de teste (talvez porque haja muita variação natural entre nossas
amostras). Em um mundo ideal, queremos que a probabilidade desse erro seja muito
pequena (se houver um efeito na população, então é importante que possamos
detectá-lo).

Cohen (1992) sugere que a probabilidade máxima aceitável de um erro de Tipo II seria
de .2 (ou 20%) - isso é chamado de nível β. Isso significaria que, se tomássemos 100
amostras de dados de uma população em que existe um efeito, não conseguiríamos
detectar esse efeito em 20 dessas amostras (então, perderíamos 1 em 5 efeitos
genuínos).

Há, obviamente, um trade-off entre esses dois erros: se abaixarmos a probabilidade de


aceitar um efeito como genuíno (ou seja, tornar um menor), aumentamos a
probabilidade de rejeitarmos um efeito que realmente existe (porque nós " Tem sido
tão rigoroso quanto ao nível em que aceitaremos que um efeito é genuíno).

A relação exata entre o erro Tipo I e Tipo II não é direta porque eles são baseados em
diferentes pressupostos: para fazer um erro Tipo I, não tem que haver efeito na
população, ao passo que para fazer um erro tipo II o oposto é verdadeiro ( Tem que
haver um efeito que perdemos). Então, embora nós saibamos que, à medida que a
probabilidade de fazer um erro Tipo I diminui, a probabilidade de aumentar o erro Tipo
II, a natureza exata do relacionamento é geralmente deixada para o pesquisador fazer
um palpite educado (Howell, 2012, dá Uma ótima explicação sobre o trade-off entre
erros).
Como vimos, se um teste usa um nível de significância de .05, a chance de fazer um
erro de Tipo I é de apenas 5%. Logicamente, então, a probabilidade de nenhum erro de
Tipo I é de .95 (95%) para cada teste. No entanto, na ciência, raramente é possível que
possamos obter uma resposta definitiva à nossa pergunta de pesquisa usando um
único teste em nossos dados: muitas vezes precisamos realizar vários testes. Por
exemplo, imagine que queremos olhar para os fatores que afetam o quão viral um
vídeo se torna no YouTube. Você pode prever que a quantidade de humor e inovação
no vídeo serão fatores importantes. Para testar isso, você pode olhar para a relação
entre o número de sucessos e medidas tanto do conteúdo humor quanto da inovação.
No entanto, você provavelmente também deve analisar se o conteúdo de inovação e
humor também estão relacionados. Portanto, você precisaria fazer três testes. Se
assumirmos que cada teste é independente (que neste caso eles não serão, mas nos
permite multiplicar as probabilidades), então a probabilidade geral de nenhum erro
Tipo I será (.95) 3 = .95 × .95 × .95 = .857, porque a probabilidade de nenhum erro de
Tipo I é de .95 para cada teste e há três testes. Dado que a probabilidade de nenhum
erro de Tipo I é de .857, então a probabilidade de fazer pelo menos um erro de Tipo I é
esse número subtraído de 1 (lembre-se de que a probabilidade máxima de ocorrência
de um evento é 1). Portanto, a probabilidade de pelo menos um erro de Tipo I é 1 -
8557 = .143, ou 14,3%. Portanto, em todo esse grupo de testes, a probabilidade de
fazer um erro de Tipo I aumentou de 5% para 14,3%, um valor maior do que o critério
convencional. Esta taxa de erro em todos os testes estatísticos realizados nos mesmos
dados é conhecida como a taxa de erro familiar ou experimental. Nosso cenário com
três testes é relativamente simples e o efeito de realizar vários testes não é grave, mas
imagine que aumentamos o número de testes de três para dez. A taxa de erro em
família pode ser calculada usando a seguinte equação (assumindo que você usa um
nível de significância de .05).

Familywise error = 1−(0.95)n

Nesta equação n é o número de testes realizados nos dados. Com 10 testes realizados,
a taxa de erro no sentido da família é 1 -9510 = .40, o que significa que há 40% de
chance de ter feito pelo menos um erro de Tipo I.

Para combater esta acumulação de erros, podemos ajustar o nível de significância para
testes individuais, de modo que a taxa geral de erro de Tipo I (α) em todas as
comparações permaneça em .05. Há várias maneiras pelas quais a taxa de erro na
família pode ser controlada. A maneira mais popular (e mais fácil) é dividir α pelo
número de comparações, k:
Portanto, se realizarmos 10 testes, usamos .005 como nosso critério de significância.
Ao fazê-lo, garantimos que o erro cumulativo de Tipo I permaneça abaixo de .05. Este
método é conhecido como a correção de Bonferroni (Figura 2.14). Há um trade-off
para controlar a taxa de erro em família, e isso é uma perda de poder estatístico, que é
o próximo tópico em nossa agenda.

Poder Estatístico
Vimos que é importante controlar a taxa de erro Tipo I, de modo que muitas vezes não
pensamos equivocadamente que um efeito é significativo quando não é.
O problema oposto relaciona-se ao erro de Tipo II, que é a frequência com que
faltaremos um efeito na população que realmente existe. Se configurarmos a taxa de
erro de Tipo II alta, provavelmente perderemos muitos efeitos genuínos, mas se
configurarmos a baixa, seremos menos propensos a perder os efeitos.
A capacidade de um teste para encontrar um efeito é conhecida como seu poder
estatístico. O poder de um teste é a probabilidade de um determinado teste encontrar
um efeito assumindo que existe na população. Este é o oposto da probabilidade de um
determinado teste não encontrar um efeito assumindo que existe na população, o que
como vimos é o nível β (isto é, taxa de erro Tipo II).
Portanto, o poder de um teste pode ser expresso como 1 - β. Dado que Cohen (1988,
1992) recomenda uma probabilidade de .2 de não detectar um efeito genuíno (ver
acima), o nível de energia correspondente seria 1 -.2 ou .8. Portanto, geralmente
procuramos alcançar um poder de .8, ou dito de outra forma, uma chance de 80% de
detectar um efeito se realmente existir. O poder de um teste estatístico depende do
seguinte:

1. Quão grande é o efeito, porque os efeitos maiores serão mais fáceis de detectar.
Isso é conhecido como o tamanho do efeito e discutiremos isso na Seção 2.7.1).

2. Quão estrito estamos em decidir que um efeito é significativo. Quanto mais


rigorosos somos, mais difícil será "encontrar" um efeito. Esse rigor é refletido no nível
α. Isso nos leva de volta ao nosso ponto na seção anterior sobre a correção de testes
múltiplos. Se usarmos uma taxa de erro Tipo I mais conservadora para cada teste
(como uma correção de Bonferroni), a probabilidade de rejeitar um efeito que
realmente existe é aumentada (é provável que possamos fazer um erro de Tipo II). Em
outras palavras, quando aplicamos uma correção de Bonferroni, os testes terão menos
poder para detectar efeitos.
3. O tamanho da amostra: vimos anteriormente neste capítulo que as amostras
maiores são melhores aproximações da população; Portanto, eles têm menos erro de
amostragem. Lembre-se de que as estatísticas de teste são basicamente uma relação
sinal-ruído, portanto, dado que grandes amostras têm menos "ruído", elas facilitam a
busca do "sinal".

Dado que o poder (1-β), o nível α, o tamanho da amostra e o tamanho do efeito estão
todos vinculados, se conheçamos três dessas coisas, então podemos descobrir o
restante. Há dois aspectos que os cientistas fazem com esse conhecimento:

1. Calcule o poder de um teste: Dado que realizamos o nosso experimento, já teremos


selecionado um valor de α, podemos estimar o tamanho do efeito com base nos dados
da amostra e saberemos quantos participantes usamos. Portanto, podemos usar esses
valores para calcular 1 - β, o poder de nosso teste. Se esse valor acabar sendo de 0,8
ou mais, podemos ter certeza de que conseguimos um poder suficiente para detectar
quaisquer efeitos que possam ter existido, mas se o valor resultante for menor, então
poderemos replicar o experimento usando mais participantes para aumentar o poder.

2. Calcule o tamanho da amostra necessário para alcançar um determinado nível de


potência: podemos definir o valor de α e 1 - β como o que queremos
(normalmente .05 e .8, respectivamente). Também podemos estimar o tamanho
provável do efeito na população usando dados de pesquisa passada. Mesmo que
ninguém tenha feito o experimento exato que pretendemos fazer, ainda podemos
estimar o tamanho provável do efeito com base em experimentos semelhantes. Dada
essa informação, podemos calcular quantos participantes precisamos para detectar
esse efeito (com base nos valores de α e 1 - β que nós estamos cheios).

O ponto de calcular o poder de um teste após o experimento sempre foi perdido em


mim um pouco: se você encontrar um efeito não significativo, então você não teve
poder suficiente, se você encontrou um efeito significativo, então você fez. Usar o
poder para calcular o tamanho de amostra necessário é a coisa mais comum e, na
minha opinião, mais útil a fazer. Os cálculos reais são muito pesados, mas há
programas de computador disponíveis que os farão para você. O G * Power é uma
ferramenta gratuita e poderosa (desculpe a chatice), há um pacote pwr que pode ser
usado no pacote de estatísticas de código aberto R e você pode comprar software
como o NQuery Adviser, Power e Precision e PASS (Power Analysis E tamanho da
amostra) também. Além disso, Cohen (1988) fornece tabelas extensas para calcular o
número de participantes para um determinado nível de poder (e vice-versa).
Intervalos de confiança e Significância.
Eu mencionei anteriormente (Seção 2.5.2.4) que, se 95% de intervalos de confiança
não se sobrepuserem, poderíamos concluir que as médias provêm de diferentes
populações e, portanto, são significativamente diferentes. Eu estava ficando frente a
mim mesmo um pouco porque este comentário aludiu ao fato de que existe uma
relação entre significância estatística e intervalos de confiança. Cumming e Finch
(2005)
Tem três diretrizes que são mostradas na Figura 2.15:
1. Intervalos de confiança de 95% que apenas se sobrepõe pelo toque de ponta com
ponta (como no painel superior esquerdo da Figura 2.15) representam um valor p para
testar a hipótese nula de nenhuma diferença de aproximadamente .01.
2. Se houver um espaço entre a extremidade superior de um intervalo de confiança de
95% e a extremidade inferior de outro (como no painel superior direito da Figura 2.15),
p <0,01.
3. Um valor p de .05 é representado por sobreposição moderada entre as barras (os
painéis inferiores da Figura 2.15).
Essas diretrizes são mal compreendidas por muitos pesquisadores. Em um estudo
(Belia, Fidler, Williams e Cumming, 2005), 473 pesquisadores de medicina, psicologia e
neurociência comportamental apresentaram um gráfico de médias e intervalos de
confiança para dois grupos independentes e pediram para mover uma das barras de
erro para cima ou para baixo no gráfico até mostrarem uma "diferença apenas
significante" (em p <0,05). A amostra variou de novos pesquisadores a experientes,
mas, surpreendentemente, essa experiência não previu suas respostas. Na verdade,
apenas uma pequena porcentagem de pesquisadores poderia posicionar os intervalos
de confiança corretamente para mostrar uma diferença apenas significativa (15% dos
psicólogos, 20% dos neurocientistas comportamentais e 16% dos médicos). A resposta
mais frequente foi posicionar os intervalos de confiança mais ou menos no ponto em
que impedem a sobreposição (ou seja, um valor p de aproximadamente 0,01). Muitos
poucos pesquisadores (mesmo experientes) perceberam que a sobreposição
moderada entre os intervalos de confiança equivale ao p-valor padrão de .05 para
aceitar significância.
O que queremos dizer com uma sobreposição moderada? Cumming (2012) define-o
como metade do comprimento da margem de erro média (Margin Of Error) MOE). O
MOE é metade do comprimento do intervalo de confiança (supondo que seja
simétrico), então é o comprimento da barra que sai para fora em uma direção da
média.
Na parte inferior esquerda da Figura 2.15, o intervalo de confiança para a amostra 1
varia de 4 a 14, portanto tem um comprimento de 10 e um MOE de metade desse
valor (isto é, 5). Para a amostra 2, varia de 11,5 a 21,5, então novamente uma distância
de 10 e um MOE de 5. O MOE médio é, portanto, (5 + 5) / 2 = 5.
A sobreposição moderada seria metade desse valor (ou seja, 2,5). Esta é a quantidade
de sobreposição entre os dois intervalos de confiança na parte inferior esquerda da
Figura 2.15.
Basicamente, então, se os intervalos de confiança tiverem o mesmo comprimento
(nesse exemplo = 10 de intervalo), então p = 0,05 é representado por uma
sobreposição de cerca de um quarto do intervalo de confiança (um quarto de 10= 2,5).
No cenário mais provável de intervalos de confiança com diferentes comprimentos, a
interpretação da sobreposição é mais difícil. No canto inferior direito da Figura 2.15, o
intervalo de confiança para a amostra 1 varia de 4 a 14, portanto tem um
comprimento de 10 e um MOE de 5. Para a amostra 2, ele varia de 12 a 18, portanto,
uma distância de 6 e um MOE de Metade desse valor, 3. O MOE médio é, portanto, (5
+ 3) / 2 = 4. A sobreposição moderada seria metade desse valor (ou seja, 2). Os dois
intervalos de confiança na parte inferior esquerda da Figura 2.15 se sobrepõem em 2
pontos na escala, então isso equivale a uma p de cerca de .05.

Tamanho da amostra e significado estatístico


Quando discutimos o poder, vimos que ele está intrinsecamente ligado ao tamanho da
amostra. Dado que o poder é a capacidade de um teste para encontrar um efeito que
realmente existe, e "encontramos" um efeito ao ter um resultado estatisticamente
significativo (ou seja, p <0,05), há também uma conexão entre o tamanho da amostra
e o P-valor associado a uma estatística de teste. Podemos demonstrar essa conexão
com dois exemplos. Aparentemente, os ratos machos "cantam" para camundongos
para tentar atraí-los como companheiros (Hoffmann, Musolf e Penn, 2012); Eu não
tenho certeza do que eles cantam, mas eu gosto de pensar que isso pode ser 'Este
mouse está em chamas' por AC / DC, ou talvez 'Mouses of the Holy' de Led Zeppelin,
ou mesmo 'O mouse Jack construído' por Metallica. Provavelmente não é "Terror e
arrogância no rato de Frank Pollard" pelo Cordeiro de Deus. Isso seria estranho. De
qualquer forma, muitos jovens já passaram algum tempo se perguntando sobre como
atrair melhor as parceiras, para ajudá-los, imagine que fizemos um estudo em que
conseguimos dois grupos de 10 homens heterossexuais para ir a uma mulher que
achou atraente e Envolva-os na conversa (grupo 1) ou cante-os uma música (grupo 2).
Nós medimos quanto tempo era antes que a mulher fugisse. Imagine que repetimos
esta experiência, mas usando 100 homens em cada grupo.

Observe na Figura 2.16 que as médias para cada amostra são as mesmas em ambos os
gráficos, mas os intervalos de confiança são muito mais estreitos quando as amostras
contêm 100 pontuações em comparação com quando elas contêm apenas 10
pontuações.
Você pode pensar que isso é estranho dado que eu disse que todos os desvios padrão
eram os mesmos (ou seja, 3). Se você pensa de volta à forma como o intervalo de
confiança é calculado, é a média mais ou menos 1,96 vezes o erro padrão.

Intervalo Confiança= X + (1,96 *SE)

O erro padrão é o desvio padrão dividido pela raiz quadrada do tamanho da amostra
(ver equação (2.8));
S
σ = √N

Portanto, à medida que o tamanho da amostra aumenta, o erro padrão (e, portanto, o
intervalo de confiança) ficará menor. Vimos na seção anterior que se os intervalos de
confiança de duas amostras tiverem o mesmo comprimento, então um p de cerca
de .05 é representada por uma sobreposição de cerca de um quarto do intervalo de
confiança. Portanto, podemos ver que, embora as médias e os desvios-padrão sejam
idênticos em ambos os gráficos, o estudo que tem apenas 10 pontuações por amostra
não é significativo (as barras se sobrepõem muito, na verdade p = .15), mas o estudo
que tem 100 pontuações por amostra mostra uma diferença altamente significativa (as
barras não se sobrepõem, p <0,001). Lembre-se, as médias e os desvios padrão são
idênticos nos dois gráficos, mas o tamanho da amostra afeta o erro padrão e,
portanto, o significado.
Levando esse relacionamento ao extremo, podemos ilustrar isso com uma amostra
bastante grande, mesmo que uma diferença completamente sem sentido entre dois
meios possa ser considerada significativa com p <0,05. A Figura 2.17 mostra essa
situação. Desta vez, o grupo de canto tem uma média de 10,00 (SD = 3) e o grupo de
conversação tem uma média de 10,01 (SD = 3): uma diferença de 0,01 - uma diferença
muito pequena. O gráfico principal parece muito estranho: as médias parecem
idênticas e não há intervalos de confiança. Na verdade, os intervalos de confiança são
tão estreitos que se fundem em uma única linha. A figura também mostra uma
imagem ampliada dos intervalos de confiança (note que os valores no eixo vertical
agora variam de 9.98 a 10.02 para que todo o intervalo de valores que estamos
mostrando é apenas 0.04). Como você pode ver, as médias da amostra são 10 e 10.01
como mencionado anteriormente, 9, mas agora ampliamos a imagem, podemos ver os
intervalos de confiança. Observe que os intervalos de confiança mostram uma
sobreposição de cerca de um quarto, o que equivale a um valor de significância de
cerca de p = 0,05 (para esses dados, o valor real de p é 0,44). Como é possível que
possamos dois meios de amostra que sejam quase idênticos (10 e 10.01) e que tenham
os mesmos desvios padrão, mas que sejam significativamente diferentes? A resposta é
novamente o tamanho da amostra: há 1 milhão de casos em cada amostra, então os
erros padrão são minúsculos.
Esta seção fez dois pontos importantes.
Primeiro, o tamanho da amostra afeta se a diferença entre as amostras é considerada
significativa ou não.
Em grandes amostras pequenas diferenças podem ser significativas;
E em amostras pequenas grandes diferenças podem ser não significativas.
Este ponto diz respeito ao poder: grandes amostras têm mais poder para detectar
efeitos.
Em segundo lugar, mesmo uma diferença de praticamente zero pode ser considerada
"significativa" se o tamanho da amostra for grande o suficiente.
Lembre-se de que as estatísticas de teste são efetivamente a proporção de sinal para
ruído, e o erro padrão é a nossa medida de "ruído de amostragem".
O erro padrão é estimado a partir do tamanho da amostra, e quanto maior o tamanho
da amostra, menor será o erro padrão.
Problemas com NHST
O NHST é o método dominante para testar teorias usando estatísticas. É atraente
porque oferece um quadro baseado em regras para decidir se acredita em uma
hipótese particular.
Também é atraente ensinar porque, mesmo que seus alunos não compreendam a
lógica por trás do NHST, a maioria deles consegue lidar com a ideia de que p <.05 é
"significativo" e um p> .05 não é. Como fazer um bolo, oferece uma receita que, se
seguida corretamente, parece fornecer "a resposta correta". Ninguém gosta de fazer
as coisas erradas e, ao seu valor nominal, a NHST dá uma orientação bastante clara
sobre o que é a conclusão "certa" e o que é "errado". No entanto, aqui estão duas das
minhas citações favoritas sobre NHST:
A dependência quase universal de apenas refutar a hipótese nula é um
erro terrível, é basicamente uma estratégia científica errônea e fraca e
uma das piores coisas que já aconteceu na história da psicologia.
(Meehl, 1978, p. 817)
NHST; Eu resisti à tentação de chamá-lo de teste de inferência de
hipóteses estatísticas. (Cohen, 1994, p. 997)

Esta seção explica o cinismo dessas pessoas altamente respeitadas ao descrever o


porquê, apesar do seu uso generalizado, a NHST é um processo fundamentalmente
falho (veja Ziliak & McCloskey, 2008, para uma discussão mais aprofundada).

O que podemos concluir a partir de testes de significância estatística?


Que o efeito é importante? A significância estatística não é a mesma coisa que a
importância real porque o valor p do qual determinamos a importância é afetado pelo
tamanho da amostra (Seção 2.6.1.10). Portanto, não devemos ser enganados com essa
frase "estatisticamente significativa", porque mesmo que o valor de p seja inferior a
0,05, não é necessariamente que o efeito seja importante: efeitos muito pequenos e
sem importância podem ser estatisticamente significativos apenas porque um grande
número de pessoas foram usadas no estudo (Figura 2.17), e os efeitos muito grandes e
importantes podem ser perdidos simplesmente porque o tamanho da amostra era
muito pequeno.

Um resultado não significante significa que a hipótese nula é verdadeira? Na


verdade, não. Se o valor p for maior do que 0,05, podemos decidir rejeitar a hipótese
alternativa, mas isso não é o mesmo que a hipótese nula sendo verdadeira: um
resultado não significativo nos diz que o efeito não é grande o suficiente para ser
encontrado, mas não nos diz que o efeito é zero. De fato, a hipótese nula nunca é
verdade porque sabemos das distribuições de amostragem (ver Seção 2.5.1) que duas
amostras aleatórias terão m ligeiramente diferentes, e mesmo que essas diferenças
possam ser muito pequenas (por exemplo, uma média pode ser 10 e outro pode ser
10.00001) são diferentes (Cohen, 1990). Como já vimos antes, mesmo uma diferença
tão pequena seria considerada estatisticamente significante se uma amostra
suficientemente grande fosse usada (pense na Figura 2.17). Portanto, um resultado
não significante nunca deve ser interpretado (apesar do fato de que é
frequentemente) como "nenhuma diferença entre as médias" ou "nenhuma relação
entre as variáveis".

Um resultado significativo significa que a hipótese nula é falsa? Errado de novo. Uma
estatística de teste significativa é baseada no raciocínio probabilístico, que limita
severamente o que podemos concluir. Cohen (1994), que era um escritor
incrivelmente lúcido sobre estatísticas, aponta que o raciocínio formal depende de
uma declaração inicial de fato seguida de uma declaração sobre o estado atual das
coisas e uma conclusão inferida. Este silogismo ilustra o que quero dizer:
1. Se um homem não tem braços, ele não pode tocar violão.
2. Este homem toca violão.
3. Portanto, este homem tem armas.

O silogismo começa com uma declaração de fato que permite chegar a conclusão final
porque você pode negar que o homem não possui armas (o antecedente) ao negar que
ele não pode tocar violão (o consequente). Uma versão comparável da hipótese nula é:
Se a hipótese nula for correta, essa estatística de teste não pode ocorrer.

 Esta estatística de teste ocorreu.


 Portanto, a hipótese nula é falsa.

Isso é muito bom, exceto que a hipótese nula não está representada dessa maneira
porque está baseada em probabilidades. Em vez disso, deve ser indicado da seguinte
forma: Se a hipótese nula for correta, então esta estatística de teste é altamente
improvável.

 Esta estatística de teste ocorreu.


 Portanto, a hipótese nula é altamente improvável.

Se voltarmos ao exemplo de guitarra, podemos obter uma declaração semelhante:


Se um homem toca violão, ele provavelmente não joga para Fugazi (isso é verdade
porque
Existem milhares de pessoas que tocam violão, mas apenas duas que tocam guitarra
na
  Banda Fugazi!).
    Guy Picciotto joga para Fugazi.
    Portanto, Guy Picciotto provavelmente não toca violão.

Espero que isso pareça completamente ridículo - a conclusão é errada porque Guy
Picciotto toca violão. Isso ilustra uma falácia comum no teste de hipóteses. Para
resumir, então, embora o NHST esteja configurado para testar qual das duas hipóteses
concorrentes (o nulo ou o alternativo) provavelmente estará correto, o processo não é
nada sobre a hipótese nula: nunca é verdade.

Pensamento de tudo ou nada


Outro grande problema com o NHST é que incentiva tudo ou nada pensando: se p
<.05, então um efeito é significativo, mas se p> .05 não é.
Um cenário ridículo que é fácil imaginar é que você tem dois efeitos, com base nos
mesmos tamanhos de amostra, e um tem p = .0499 e o outro p = .0501. Se você aplicar
o livro de receitas da NHST, o primeiro efeito é significativo e o segundo não é. É
realmente esse o caso, quando o ps diferir por apenas .0002? Claro que não é o caso;
esses efeitos são muito semelhantes.
Não há nada de mágico sobre o critério de p <.05; é meramente uma prática que se
tornou popular por razões razoavelmente arbitrárias (veja Jane Superbrain Box 2.5).
No entanto, a natureza do recipebook da NHST nos encoraja a pensar nestes termos
muito em preto e branco. A aplicação dogmática da regra .05 pode nos enganar.

Os alunos muitas vezes têm muito medo das estatísticas. Um dia, um homem chamado
Dr. Richard Weeping afirmou ter encontrado uma cura para a ansiedade estatística:
uma poção contendo suor de texugo, uma lágrima de um filho recém-nascido, uma
colher de chá de Guinness, alguma saliva de gato e sorvete. Imagine que 10
pesquisadores fizeram um estudo em que compararam níveis de ansiedade em
estudantes que haviam tomado a poção para aqueles que tomaram uma poção
placebo (água). Se a poção não funcionou, então deve haver uma diferença de zero
entre esses meios grupais (a hipótese nula), mas se funcionar, então aqueles que
tomaram a poção devem ser menos ansiosos do que os que tomam o placebo (que
aparecerá Em uma diferença positiva entre os grupos). Os resultados dos 10 estudos
são mostrados na Figura 2.18 juntamente com o valor p dentro de cada estudo.
Com base no que eu lhe falei sobre o NHST, você deveria ter respondido C: apenas 4
dos 10 estudos têm um resultado "significativo", o que não é uma evidência muito
convincente da poção mágica do Dr Weeping. Agora, você não sabe nada sobre o
NHST, olha os intervalos de confiança e pensa sobre o que sabemos sobre os intervalos
de confiança sobrepostos.

Eu espero que alguns de vocês tenham mudado de idéia para a opção B. Se você ainda
continuar com a opção C, deixe-me tentar convencê-lo de outra forma. Primeiro, 10
dos 10 estudos mostram um efeito positivo da poção (nenhum das médias está abaixo
de zero) e, embora às vezes este efeito positivo nem sempre seja "significativo", é
consistentemente positivo. Os intervalos de confiança se sobrepõem substancialmente
em todos os estudos, sugerindo que todos os estudos têm amostrado a mesma
população. Mais uma vez, isto implica uma grande consistência nos estudos: todos
vomitam os efeitos populacionais de um tamanho similar. Lembre-se que o intervalo
de confiança conterá o valor real da população em 95% das amostras. Observe quanto
dos intervalos de confiança estão acima de zero nos 10 estudos: mesmo nos estudos
para os quais o intervalo de confiança inclui zero (o que implica que o efeito da
população pode ser zero), a maioria da barra é maior que zero. Novamente, isso
sugere evidências muito consistentes de que o valor da população é maior que zero
(ou seja, a poção funciona). Portanto, ao analisar os intervalos de confiança, em vez de
apenas focar o significado, podemos ver a consistência nos dados.
Do que ter resultados conflitantes (o que a abordagem da NHST implicava), nós
realmente temos resultados muito consistentes: em todos os estudos, o efeito da
poção foi positivo e, levando em consideração todos os 10 estudos, há boas razões
para pensar que o efeito populacional é provável seja maior que zero.

Tamanhos de efeitos
Um dos problemas que identificamos com a NHST foi que o significado não nos diz
sobre a importância de um efeito. A solução para esta crítica é medir o tamanho do
efeito que estamos testando de forma padronizada.
Quando medimos o tamanho de um efeito (seja uma manipulação experimental ou a
força de uma relação entre variáveis) é conhecido como tamanho de efeito. O
tamanho do efeito é simplesmente uma medida objetiva e (geralmente) padronizada
da magnitude do efeito observado. O fato de que a medida é padronizada significa que
podemos comparar os tamanhos de efeitos em diferentes estudos que mediram
variáveis diferentes ou usaram diferentes escalas de medida (então, um tamanho de
efeito baseado em velocidade em milissegundos pode ser comparado com um
tamanho de efeito baseado em Taxas cardíacas). Como mencionei anteriormente, a
APA recomenda divulgar esses tamanhos de efeitos, por isso é um hábito que vale a
pena entrar.
Cohen's d
Muitas medidas do tamanho do efeito foram propostas, sendo as mais comuns as de
Cohen's, o coeficiente de correlação de Pearson r (Capítulo 6) e a Relação de
probabilidades (Capítulos 18 e 19). Como veremos ao longo do livro, há outros, mas
esses três são os mais simples de entender. Vamos pensar outra vez em nosso estudo
sobre se o canto te dá um encontro de namoro na Seção 2.6.1.10. Se quisermos
quantificar o efeito entre os grupos de canto e conversação, como podemos fazê-lo?
Uma coisa bastante simples de fazer seria tomar as diferenças entre as médias. O
grupo de conversação teve uma média de 12 minutos (antes que a mulher fugisse), e o
grupo de cantores com média de 10 minutos. Então, o efeito do canto em comparação
com a conversa é 10-12 = -2 minutos. Este é um tamanho de efeito. O canto teve um
efeito prejudicial em quanto tempo a mulher ficou, em -2 minutos. Isso é bastante fácil
de calcular e entender, mas tem dois pequenos inconvenientes.
Primeiro, a diferença em médias será expressa nas unidades de medida para o estudo
particular. Neste exemplo particular, este inconveniente não é realmente um
inconveniente, porque os minutos significam algo para nós: todos nós podemos
imaginar o que mais 2 minutos de tempo com alguém seria. Nós também podemos ter
uma idéia do que 2 minutos com alguém é relativo em relação à quantidade de tempo
que geralmente gastamos conversando com pessoas aleatórias. No entanto, se
tivéssemos medido o que as mulheres pensavam dos homens em vez de quanto tempo
passavam com eles, a interpretação é mais complicada: 2 unidades de "pensamento"
ou "positividade" ou qualquer coisa menos tangível para nós do que 2 minutos de
tempo. O segundo inconveniente é que, embora a diferença entre as médias nos dê
uma indicação do "sinal", não nos fala sobre o "ruído" na medida. Há 2 minutos de
tempo muito ou um pouco relativo ao tempo "normal" de falar com estranhos?
Podemos remediar esses dois problemas da mesma maneira. Vimos anteriormente
neste capítulo que o desvio padrão é uma medida de "erro" ou "ruído" nos dados, e
vimos na Seção 1.6.4 que se dividimos pelo desvio padrão, então o resultado é uma
pontuação expressa no padrão Unidades de desvio (ou seja, um escore z). Portanto, se
dividimos a diferença entre as médias pelo desvio padrão, obtemos uma relação sinal-
ruído, mas também obtemos um valor que é expresso em unidades de desvio padrão
(e pode, portanto, ser comparado em diferentes estudos que usaram diferentes
medidas). O que acabei de descrever é o de Cohen e podemos expressá-lo
formalmente como:

X 1−X 2
d^ = s

Eu coloquei um chapéu no d para nos lembrar que estamos realmente interessados no


tamanho do efeito na população, mas porque não podemos medir isso diretamente,
nós o estimamos a partir da amostra. O chapéu significa 'estimativa de’. Portanto, d é
simplesmente a diferença entre as médias divididos pelo desvio padrão. No entanto,
tivemos dois desvios-padrão, então qual deve ser usado? Às vezes, assumimos que as
variações grupais (e, portanto, os desvios padrão) são iguais (ver Capítulo 5) e, se
forem, podemos escolher um desvio padrão de um dos grupos porque não importará.
Em nosso canto para um exemplo de data, os desvios-padrão foram idênticos nos dois
grupos (SD = 3) por isso não importa qual deles escolhemos; nós obteríamos:

10,27−9
d^ = = 0,433
2,93

Este tamanho de efeito significa que se um homem cantou em vez de ter uma
conversa normal, o tempo que a mulher passou com ele foi reduzido em 0,667 desvios
padrão. Isso é um pouco. Cohen (1988, 1992) fez algumas sugestões amplamente
utilizadas sobre o que constitui um efeito grande ou pequeno: d = 0,2 (pequeno), 0,5
(médio) e 0,8 (grande). Para os nossos dados de canto isso significaria que temos um
tamanho de efeito médio a grande. No entanto, como reconheceu Cohen, esses
benchmarks incentivam o tipo de pensamento preguiçoso que estávamos tentando
evitar e ignoramos o contexto do efeito, como os instrumentos de medição e as
normas gerais em uma determinada área de pesquisa. Lenth colocou-o bem quando
ele disse que, quando interpretamos tamanhos de efeitos, não estamos tentando
vender t-shirts: "Eu vou ter o tamanho do efeito de tour Metallica em um meio, por
favor" (Baguley, 2004; Lenth, 2001).
Às vezes, os grupos não têm desvios padrão iguais, e nesses casos, existem duas
opções principais.
Primeiro, o desvio padrão do grupo de controle ou linha de base é frequentemente
usado. Isso faz sentido porque qualquer intervenção ou manipulação experimental
pode ser esperada para mudar não apenas a média, mas também a propagação de
pontuação. Portanto, o desvio padrão do grupo de controle / linha de base será uma
estimativa mais precisa do desvio padrão para a medida que você está usando. Em
nosso estudo de canto, usaríamos o desvio padrão do grupo de conversação porque
normalmente você não iria para alguém e começaria a cantar. Portanto, d
representaria a quantidade de tempo menor que as mulheres passavam com homens
cantores do que homens falantes em relação à variação normal no tempo que as
mulheres passavam com homens estranhos que conversavam com eles. A segunda
opção é agrupar os desvios-padrão dos dois grupos usando (se seus grupos forem
independentes) esta equação:
Em que N é o tamanho da amostra de cada grupo e s é o desvio padrão. Para os dados
de canto, porque os desvios-padrão e os tamanhos de amostra são os mesmos nos
dois grupos, esta estimativa agrupada será a mesma que o desvio padrão (isto é, 3):
Quando os desvios-padrão do grupo são diferentes, esta estimativa agregada pode ser
útil; no entanto, ele muda o significado de d porque agora estamos comparando a
diferença entre as médias contra todo o "ruído" do fundo na medida, não apenas o
ruído que você esperaria encontrar em circunstâncias normais.
Se você fez a auto teste, você deveria ter o mesmo resultado que antes: -0.667. Isso
porque a diferença no tamanho da amostra não afetou as médias ou desvios padrão e,
portanto, não afetará o tamanho do efeito. Por outras coisas, o tamanho dos efeitos
não é afetado pelo tamanho da amostra, ao contrário dos valores p. Portanto, usando
os tamanhos de efeitos, superamos um dos maiores problemas com o NHST. Na
realidade, a situação não é tão simples porque, como qualquer parâmetro, você obterá
melhores estimativas do valor da população em grandes amostras do que pequenas.
Portanto, embora o tamanho da amostra não afete a computação do tamanho do seu
efeito na amostra, isso afeta o quão próximo o tamanho do efeito da amostra
corresponde ao da população (conhecida como precisão).
Quando analisamos os conjuntos de dados nas Figuras 2.16 e 2.17 e seus valores p
correspondentes, concluímos o seguinte:

Figura 2.16: Dois experimentos com meios idênticos e desvios padrão produzem
conclusões completamente opostas ao usar um valor p para interpretá-los (o estudo
com base em 10 pontuações por grupo não foi significativo, mas o estudo com base
em 100 pontuações por grupo foi).

Figura 2.17: Dois meios praticamente idênticos são considerados significativamente


diferentes com base em um pvalue. Se usarmos tamanhos de efeito para orientar
nossas interpretações, concluiríamos o seguinte:

Figura 2.16: Duas experiências com meios idênticos e desvios padrão produzem
conclusões idênticas ao usar um tamanho de efeito para interpretá-las (ambos os
estudos tiveram d = 0.667).

Figura 2.17: Dois meios praticamente idênticos são considerados não muito diferentes,
com base em um tamanho de efeito (d = 0,003, que é pequeno).
Com esses exemplos, espero ter convencido você de que os tamanhos de efeito nos
oferecem algo que é menos enganador do que NHST.

O coeficiente de correlação
Muitos de vocês estarão familiarizados com o coeficiente de correlação de Pearson, r,
como uma medida da força da relação entre duas variáveis (e o cobriremos no
Capítulo 6, se você não estiver). Como tal, é um tamanho de efeito. Pode surpreendê-
lo, porém, que também pode ser usado para quantificar a força de um efeito
experimental. A razão pela qual você pode se surpreender com esta revelação é que os
alunos geralmente são ensinados sobre o coeficiente de correlação no contexto da
pesquisa não experimental. Se você pensar sobre isso, porém, não é realmente
surpreendente: r quantifica a relação entre duas variáveis, então, se uma dessas
variáveis representa uma manipulação experimental e a outra
Representa uma variável de resultado, então r quantifica a relação entre a
manipulação experimental e o resultado. Em outras palavras, quantificar o efeito
experimental. Claro, é um pouco mais complexo do que isso, mas não quero avançar
comigo mesmo, e descobriremos mais sobre r como medida de tamanho de efeito nos
Capítulos 6, 9 e 11.

Como com d, Cohen (1988, 1992) sugeriu alguns "tamanhos de T-shirt" para r:
R = .10 (efeito pequeno): neste caso, o efeito explica 1% da variância total.
R = .30 (efeito médio): o efeito representa 9% da variância total.
R = .50 (efeito grande): o efeito representa 25% da variância.

Vale lembrar que r não é medido em uma escala linear, então um efeito com r = .6 não
é duas vezes maior que um com r = .3. Vale lembrar a minha observação anterior de
que esses tamanhos de efeitos "enlatados" não substituem a avaliação de um
tamanho de efeito no contexto do domínio de pesquisa que está sendo usado. Há
muitas razões para gostar de r como uma medida de tamanho de efeito, uma delas
sendo que é constrangido de situar-se entre 0 (sem efeito) e 1 (um efeito perfeito) .12
No entanto, existem situações nas quais d pode ser favorecido; Por exemplo, quando
os tamanhos dos grupos são muito discrepantes, r pode ser bastante tendencioso em
comparação com d (McGrath & Meyer, 2006).

Meta-análise
Ao longo dos dois primeiros capítulos, fiz alusão a como os cientistas muitas vezes
testam teorias e hipóteses semelhantes. Uma parte importante da ciência é replicar os
resultados, e é raro que um único estudo dê uma resposta definitiva a uma questão
científica. Na Seção 2.6.2.2, analisamos um exemplo de 10 experimentos que todos
exploraram se uma poção reduz a ansiedade estatística em comparação com um
placebo (água). O resumo desses estudos foi mostrado na Figura 2.18. Anteriormente,
concluímos que, com base em valores de p, concluímos que havia resultados
inconsistentes: 4 estudos mostram um efeito significativo da poção e 6 não. No
entanto, com base nos intervalos de confiança, concluiríamos o contrário: os
resultados em todos os estudos eram bastante consistentes e que era provável que o
efeito na população fosse positivo. Também nesta figura, embora você não soubesse o
que eles estavam no
Tempo, são os valores de Cohen's para cada estudo.

Os 10 estudos resumidos na Figura 2.18 têm ds variando de .23 (outras coisas sendo
iguais, pequenas) para .71 (outras coisas sendo iguais, bastante grandes). Todos os
tamanhos de efeito são positivos: nenhum estudo mostrou pior ansiedade após tomar
a poção. Portanto, os tamanhos dos efeitos são muito consistentes: todos os estudos
mostram efeitos positivos e a poção, na pior das hipóteses, teve efeito de cerca de um
quarto do desvio padrão e, na melhor das hipóteses, um efeito de quase três quartos
de um desvio padrão. Nossas conclusões são notavelmente semelhantes ao que
concluímos quando analisamos os intervalos de confiança, ou seja, há uma evidência
consistente de um efeito positivo na população. Não seria bom se pudéssemos usar
esses estudos para obter uma estimativa definitiva do efeito na população? Bem,
podemos, e esse processo é conhecido como meta-análise. Parece difícil, não é? O que
não seria difícil seria resumir esses 10 estudos tomando uma média dos tamanhos de
efeito:

Capítulo 5
O que é um viés?
Vocês estarão todos familiarizados com o termo "viés". Por exemplo, se você já assistiu
a um jogo esportivo, provavelmente terá acusado um árbitro de ser "tendencioso" em
algum momento, ou talvez tenha assistido a um programa de TV como The X Factor e
achou que um dos juízes era "Tendenciosa" em relação aos atos que orientaram.
Nesses contextos, o viés significa que alguém não está avaliando a evidência (por
exemplo, o canto de alguém) de forma objetiva: há outras coisas que afetam suas
conclusões. Da mesma forma, quando analisamos dados, podem haver coisas que nos
levem a conclusões erradas. Um pouco de revisão. Vimos no Capítulo 2 que, tendo
coletado dados, costumamos ajustar um modelo que representa a hipótese que
queremos testar. Este modelo geralmente é um modelo linear, que assume a forma de
equação (2.4). Para lembrá-lo, parece assim:

outcomei = (b1X1i + b2X2i + … + bnXni) + error.

Portanto, prevemos uma variável de resultado de algum tipo de modelo. Esse modelo
é descrito por uma ou mais variáveis preditoras (os Xs na equação) e parâmetros (o bs
na equação) que nos dizem algo sobre a relação entre o preditor e a variável de
resultado. Finalmente, o modelo não prevê o resultado perfeitamente, então, para
cada observação, haverá algum erro. Quando ajustamos um modelo aos dados,
estimamos os parâmetros e geralmente usamos o método dos mínimos quadrados
(Seção 2.4.3). Nós não estamos interessados em nossa amostra, tanto quanto uma
população mais geral a que não temos acesso, então usamos os dados da amostra
para estimar o valor dos parâmetros na população (é por isso que os chamamos de
estimativas e não de valores). Quando estimamos um parâmetro, também calculamos
uma estimativa de como ele representa a população, como um erro padrão (Seção
2.5.1) ou intervalo de confiança (Seção 2.5.2). Também podemos testar hipóteses
sobre esses parâmetros ao computar as estatísticas de teste e suas probabilidades
associadas (p-values, seção 2.6.1). Portanto, quando pensamos sobre o viés,
precisamos pensar sobre isso em três contextos:
1. coisas que propagam as estimativas dos parâmetros (incluindo tamanhos de efeito);
2. coisas que comparam erros padrão e intervalos de confiança;
3. coisas que comparam estatísticas de teste e valores de p.

Estas situações estão relacionadas:


1. Primeiro, se o erro padrão for tendencioso, o intervalo de confiança o será
também porque se baseia no erro padrão;
2. Em segundo lugar, as estatísticas de teste geralmente são baseadas no erro
padrão (ou algo relacionado a ele), então, as estatísticas de teste serão
tendenciosas também;
3. E, em terceiro lugar, se a estatística de teste for tendenciosa, então também
será seu valor p.

É importante que identifiquemos e eliminemos qualquer coisa que possa afetar a


informação que utilizamos para tirar conclusões sobre o mundo: se nossa estatística de
teste é imprecisa (ou tendenciosa), nossas conclusões serão também. As fontes de viés
vêm na forma de uma besta de duas cabeças, respirando fogo e verde, que salta por
trás de um montículo de musgo embebido no sangue para tentar nos comer vivo. Uma
das suas cabeças passa pelo nome de pontuações incomuns, ou "outliers", enquanto a
outra é chamada de "violação de pressupostos". Estes são provavelmente nomes que
levaram a ser provocado na escola, mas, o que diabos, poderia respirar fogo de ambas
as cabeças para que ele pudesse lidar com isso. Em frente à batalha ...

Premissas/Suposições
A maioria de nossas fontes potenciais de viés vem sob a forma de violações de
pressupostos, e muitas vezes você ouve ou lê sobre "suposições" de testes estatísticos.
Uma suposição é uma condição que garante que o que você está tentando fazer
funciona. Por exemplo, quando avaliamos um modelo usando uma estatística de teste,
geralmente fazemos algumas suposições e, se essas premissas são verdadeiras,
sabemos que podemos levar a estatística de teste (e, portanto, valor de p) associada a
um modelo em Valor de face e interprete-o de acordo. Por outro lado, se alguma das
premissas não for verdadeira (geralmente referida como uma violação), a estatística
de teste e o valor de p serão imprecisos e podem levar-nos a uma conclusão errada se
os interpretarmos ao valor nominal.

Os pressupostos são frequentemente apresentados, de modo que parece que


procedimentos estatísticos diferentes possuem seu próprio conjunto único de
pressupostos. No entanto, porque geralmente estamos ajustando as variações do
modelo linear aos nossos dados (ver Seção 2.4), todos os testes neste livro
basicamente têm os mesmos pressupostos. Essas premissas se relacionam com a
qualidade do próprio modelo, e as estatísticas de teste usadas para avaliá-lo (que
geralmente são testes paramétricos com base na distribuição normal). As principais
premissas que analisaremos são:

1. Aditividade e linearidade;
2. Normalidade de alguma coisa;
3. Homoscedasticidade / homogeneidade de variância;
4. Independência.

Outliers

Eu mencionei que o primeiro chefe da besta de polarização é chamado de "outliers".


Um outlier é uma pontuação muito diferente do resto dos dados. Vejamos um
exemplo. Quando publiquei meu primeiro livro (a primeira edição deste livro), fiquei
muito animado e queria que todos no mundo amassem minha nova criação e eu.
Consequentemente, cheguei obsessivamente às avaliações do livro na amazon.co.uk.
As classificações dos clientes podem variar de 1 a 5 estrelas, onde 5 é o melhor. Em
2002, meu primeiro livro tinha sete classificações (na ordem dada) de 2, 5, 4, 5, 5, 5 e
5. Todas, exceto uma dessas classificações, são bastante similares (principalmente 5 e
4), mas a primeira classificação era bastante diferente do resto - era uma classificação
de 2 (uma classificação média e horrível). A figura 5.2 apresenta sete revisores no eixo
horizontal e suas classificações no eixo vertical. Há também uma linha horizontal
pontilhada que representa a classificação média (4.43, como acontece). Deve ficar
claro que todas as pontuações, exceto uma, estão próximas desta linha. A pontuação
de 2 é muito diferente e está bem abaixo da média. Esta pontuação é um exemplo de
um outlier - uma pessoa estranha e incomum (quero dizer, pontuação) que se desvia
do resto da humanidade (quero dizer, conjunto de dados). A linha horizontal sólida
representa a média das pontuações quando o outlier não está incluído (4.83). Esta
linha é maior do que a média original, indicando que ao ignorar essa pontuação, a
média aumenta (em 0.4). Este exemplo mostra como uma única pontuação, de algum
malvado espirito de texugo, pode prejudicar um parâmetro como a média: a primeira
classificação de 2 arrasa a média para baixo. Com base nessa estimativa tendenciosa,
novos clientes podem erroneamente concluir que meu livro é pior do que a população
realmente pensa que é. Embora eu tenha consumido amarguras sobre esse assunto
inteiro, pelo menos me deu um excelente exemplo de um outlier.

O exemplo ilustra que outliers pode enviesar uma estimativa de parâmetro, mas tem
uma influência ainda maior sobre o erro associado a essa estimativa. De volta à Seção
2.4.1, analisamos o exemplo do número de amigos que tinham 5 professores de
estatística. Os dados foram 1, 3, 4, 3, 2, a média foi de 2,6 e a soma do erro quadrado
foi de 5,2. Vamos substituir uma das pontuações por um outlier mudando o 4 para um
10. Os dados são agora: 1, 3, 10, 3 e 2.

O pressuposto de aditividade e linearidade significa que a variável de resultado está,


na realidade, relacionada linearmente a qualquer predictor (ou seja, sua relação pode
ser resumida por uma linha reta - pense em Jane Superbrain Box 2.1) e que, se você
tiver vários Preditores então seu efeito combinado é melhor descrito adicionando seus
efeitos juntos. Em outras palavras, isso significa que o processo que estamos tentando
modelar pode ser descrito com precisão como:

b1X1i + b2X2i + ... + bnXni

Esse pressuposto é o mais importante porque, se não for verdade, mesmo que todos
os outros pressupostos sejam atendidos, seu modelo é inválido porque você o
descreveu incorretamente. É um pouco como chamar seu gato de estimação de
cachorro: você pode tentar levá-lo para ir no canil, ou fazê-lo pegar um pedaço de pau,
ou pedir para sentar-se quando você diz “senta”, mas não se surpreenda quando seu
comportamento não é o que você espera porque, apesar de ter chamado um cachorro,
é de fato um gato. Da mesma forma, se você descreveu seu modelo estatístico
incorretamente, ele não se comportará e não basta interpretar suas estimativas de
parâmetros ou se preocupar com testes de significância de intervalos de confiança: o
modelo está errado.

Normalmente distribuiu alguma coisa ou outra

A segunda suposição relaciona-se com a distribuição normal, que encontramos no


Capítulo 1 e então sabemos o que parece e nós (espero) entendemos. A distribuição
normal é relevante para muitas das coisas que queremos fazer quando ajustamos
modelos de dados para acessá-los:

Estimativas de parâmetros: a média é um parâmetro, e vimos na seção anterior (as


classificações de Amazon) que pontuações extremas podem influenciar. Isso ilustra
que as estimativas de parâmetros são afetadas por distribuições não normais (como
aquelas com outliers). As estimativas de parâmetros diferem em quanto são
tendenciosas em uma distribuição não normal: a mediana, por exemplo, é menos
tendenciosa por distribuições distorcidas do que a média.
Intervalos de confiança: usamos valores da distribuição normal padrão para calcular o
intervalo de confiança (Seção 2.5.2.1) em torno de uma estimativa de parâmetro (por
exemplo, a média ou a equação b (2.4)). O uso de valores da distribuição normal
padrão faz sentido somente se as estimativas de parâmetros realmente vierem de um.

Teste de significância de hipóteses nulas: se quisermos testar uma hipótese sobre um


modelo (e, portanto, as estimativas de parâmetros dentro dele) usando a estrutura
descrita na Seção 2.6.1, então assumimos que as estimativas de parâmetros têm uma
distribuição normal. Nós assumimos isso porque as estatísticas de teste que usamos (o
que aprenderemos em devido tempo) têm distribuições relacionadas à distribuição
normal (como as distribuições t, F e qui-quadrado), então, se nossa estimativa de
parâmetro for normalmente distribuída, então essas estatísticas de teste e valores de
p serão precisas.

Erros: vimos que qualquer modelo que combinamos incluirá algum erro (não vai
prever perfeitamente a variável de resultados). Também vimos que poderíamos
calcular o erro para cada caso de dados (chamado de desvio ou residual). Se esses
resíduos são normalmente distribuídos na população, usando o método de mínimos
quadrados para estimar os parâmetros (o bs na equação (2.4)) produzirá melhor
estimativas do que outros métodos.

A suposição de normalidade

Muitas pessoas tomam a "suposição de normalidade" para significar que seus dados
precisam ser normalmente distribuídos. No entanto, não é isso que isso significa. Na
verdade, há muita confusão sobre o que isso significa. Acabamos de analisar as formas
em que a normalidade pode introduzir viés, e esta lista sugere que a "suposição de
normalidade" pode significar coisas diferentes em diferentes contextos:

1. Para intervalos de confiança em torno de uma estimativa de parâmetro (por


exemplo, a média ou a equação b (2.4)) para ser precisas, essa estimativa deve
vir de uma distribuição normal.
2. Para testes de significância de modelos (e as estimativas de parâmetros que os
definem) para ser precisas, a distribuição de amostragem do que está sendo
testado deve ser normal. Por exemplo, se testar se duas médias são diferentes,
os dados não precisam ser normalmente distribuídos, mas a distribuição de
amostragem das médias (ou diferenças entre as médias) faz. Da mesma forma,
se analisarmos relações entre variáveis, os testes de significância das
estimativas de parâmetros que definem essas relações (o bs na equação (2.4))
serão precisos apenas quando a distribuição de amostragem da estimativa for
normal.
3. Para as estimativas dos parâmetros que definem um modelo (o bs na equação
(2.4)) para ser otimizado (ter o menor erro possível devido aos dados), os
resíduos (o erro na equação 2.4) na população devem ser normalmente
distribuídos. Isto é verdade principalmente se usarmos o método dos mínimos
quadrados (Seção 2.4.3), o que muitas vezes fazemos.

O equívoco que muitas vezes as pessoas têm sobre os dados que precisam ser
normalmente distribuídos provavelmente decorre do fato de que, se os dados forem
normalmente distribuídos, é razoável supor que os erros no modelo e a distribuição de
amostragem também são (e lembre-se, nós don "Tenho acesso direto à distribuição de
amostragem, então devemos fazer suposições educadas sobre sua forma). Portanto, a
suposição de normalidade tende a ser traduzida como "seus dados precisam ser
normalmente distribuídos", embora isso não seja realmente o que isso significa (veja
Jane Superbrain Box 5.1 para mais informações).

O teorema do limite central revisitado

Para entender quando e se precisamos nos preocupar com a suposição de


normalidade, devemos revisitar o teorema do limite central, que encontramos na
Seção 2.5.1. Imagine que temos uma população de pontuações que normalmente não
é distribuída. A Figura 5.5 mostra uma população que contém dezenas de amigos de
professores de estatísticas: é muito distorcido, com a maioria dos professores com
apenas um amigo e as frequências diminuindo à medida que o número de amigos
aumenta para o máximo de 7 amigos. Não estou enganando você; essa população está
tão distante da curva normal em forma de sino quanto parece. Imagine que tirei
amostras de 5 pontuações dessa população e em cada amostra eu avaliei um
parâmetro (digamos que eu computei a média) e depois substituí os resultados. Na
verdade, tirei 5000 amostras e, consequentemente, eu tenho 5000 valores da
estimativa de parâmetro (cada uma de uma amostra diferente). Vejamos o que
acontece quando traçamos esses 5000 valores em uma distribuição de frequência. A
distribuição de frequência das estimativas de 5000 parâmetros das 5000 amostras está
na extrema esquerda da Figura 5.5. Esta é a distribuição de amostragem da estimativa
do parâmetro. Note-se que é bastante desviado, mas não tão distorcido como a
população. Imagine agora que eu repeti o processo de amostragem, mas desta vez
minhas amostras continham 30 pontuações em vez de apenas 5. A distribuição
resultante das estimativas de 5000 parâmetros está no centro da Figura 5.5. Ainda há
distorção nesta distribuição de amostragem, mas é muito mais normal do que quando
as amostras foram baseadas em apenas 5 pontuações. Finalmente, eu repeti todo o
processo, mas desta vez peguei amostras de 100 pontuações em vez de 30. A
distribuição resultante das estimativas de 5000 parâmetros é basicamente normal
(direita da Figura 5.5). À medida que os nossos tamanhos de amostra aumentaram, as
distribuições de amostragem tornaram-se mais normais, até o ponto em que a
amostra é suficientemente grande para que a distribuição de amostragem seja normal
- apesar do fato de a população de pontuação ser muito normal. Este é o teorema do
limite central: independentemente da forma da população, as estimativas de
parâmetros dessa população terão uma distribuição normal, desde que as amostras
sejam "grandes o suficiente" (ver Caixa Jane Superbrain, caixa 5.2).
Quando a suposição da normalidade é importante?

O teorema do limite central significa que existem várias situações em que podemos
assumir a normalidade, independentemente da forma de nossos dados de amostra
(Lumley, Diehr, Emerson e Chen, 2002). Vamos pensar sobre as coisas afetadas pela
normalidade:

1. Para intervalos de confiança em torno de uma estimativa de parâmetro (por


exemplo, a média ou a equação b (2.4)) para ser precisas, essa estimativa deve
vir de uma distribuição normal. O teorema do limite central nos diz que, em
grandes amostras, a estimativa terá origem em uma distribuição normal,
independentemente do que a amostra ou a população aparecem. Portanto, se
estamos interessados em computar intervalos de confiança, então não
precisamos nos preocupar com a suposição de normalidade se a nossa amostra
for suficientemente grande.
2. Para que os testes de significância dos modelos sejam precisos, a distribuição
de amostragem do que está sendo testado deve ser normal. Novamente, o
teorema do limite central nos diz que em grandes amostras isso será verdade,
independentemente da forma da população. Portanto, a forma de nossos
dados não deve afetar os testes de significância desde que nossa amostra seja
suficientemente grande. No entanto, a medida em que as estatísticas de teste
funcionam como deveriam ser feitas em grandes amostras varia em diferentes
estatísticas de teste, e lidamos com essas questões idiossincráticas no capítulo
apropriado.
3. Para as estimativas dos parâmetros do modelo (o bs na equação (2.4)) ser
otimizado (usando o método dos mínimos quadrados), os resíduos da
população devem ser normalmente distribuídos. O método dos mínimos
quadrados sempre lhe dará uma estimativa dos parâmetros do modelo que
minimiza o erro, então, nesse sentido, você não precisa assumir a normalidade
de nada para se adequar a um modelo linear e estimar os parâmetros que o
definem (Gelman & Hill, 2007). No entanto, existem outros métodos para
estimar os parâmetros do modelo, e se você tiver erros normalmente
distribuídos, as estimativas que você obteve usando o método de mínimos
quadrados terão menos erro do que as estimativas que você teria usando
qualquer um desses outros métodos.

Homoscedasticidade / homogeneidade de variância

O segundo pressuposto que exploraremos diz respeito à variação (Seção 1.6.3), que
podem afetar as duas principais coisas que podemos fazer quando ajustamos modelos
de dados:

1. Parâmetros: se usarmos o método dos mínimos quadrados (Seção 2.4.3) para estimar
os parâmetros no modelo, isso nos dará estimativas ótimas se a variância da variável
de resultado for igual em diferentes valores da variável preditora.
2. Teste de significância de hipóteses nulas (NHST): as estatísticas de teste geralmente
assumem que a variância da variável de resultado é igual em diferentes valores da
variável preditor. Se este não for o caso, essas estatísticas de teste serão imprecisas.

Portanto, para garantir que nossas estimativas dos parâmetros que definem nosso modelo e
testes de significância sejam precisas, devemos assumir a homoscedasticidade (também
conhecida como homogeneidade de variância).

Qual é a homoscedasticidade / homogeneidade da variância?

Em projetos em que você teste vários grupos de participantes, essa suposição significa que
cada uma dessas amostras vem de populações com a mesma variância. Nos conceitos
correlacionais, essa suposição significa que a variância da variável de resultado deve ser
estável em todos os níveis da variável preditor. Em outras palavras, à medida que você passa
por níveis da variável preditor, a variância da variável de resultado não deve mudar. Vamos
ilustrar esta ideia com um exemplo. Um audiologista estava interessado nos efeitos de
concertos altos na audiência das pessoas. Ela enviou 10 pessoas em turnê com a banda mais
alta que ela conseguiu, Motörhead. Essas pessoas foram a concertos em Brixton (Londres),
Brighton, Bristol, Edimburgo, Newcastle, Cardiff e Dublin, e o audiologista mediu por quantas
horas após o show que essas pessoas estavam com os ouvidos zumbindo.

O topo da Figura 5.7 mostra o número de horas que cada pessoa (representada por um círculo)
ficou com zumbido em seus ouvidos após cada show. Os quadrados mostram o número médio
de horas de zumbido nos ouvidos após cada show. Uma linha conecta essas médias para que
possamos ver a tendência geral. Para cada concerto, os círculos são os escores a partir dos
quais a média é calculada. Podemos ver em ambos os gráficos que as médias aumentam à
medida que as pessoas vão para mais concertos: há um efeito cumulativo dos concertos ao
tocar nos ouvidos. Os gráficos não diferem em relação as médias (que são aproximadamente
as mesmas), mas diferem na disseminação dos escores em torno da média. A parte inferior da
Figura 5.7 remove os dados e o substitui por uma barra que mostra o alcance das pontuações
exibidas na figura superior. Nos gráficos da esquerda, as barras verdes são aproximadamente o
mesmo comprimento, o que nos diz que a propagação de pontuações em torno da média era
aproximadamente a mesma em cada show. Isto é o que queremos dizer por homogeneidade
de variância ou Homoscedasticidade: a disseminação de pontuação para perda de audição é a
mesma em cada nível da variável de concerto (ou seja, a propagação de pontuação é a mesma
em Brixton, Brighton, Bristol, Edimburgo, Newcastle, Cardiff e Dublin). O lado direito da Figura
5.7 mostra um cenário diferente: as pontuações após o concerto de Brixton (que são exibidas
de novo pelas linhas verdes na parte inferior da figura) são bem embaladas em torno da média
(a distância vertical da menor pontuação para o maior resultado é pequena), mas depois do
show de Dublin (por exemplo), as pontuações estão muito espalhadas em torno da média (a
distância vertical da nota mais baixa para a pontuação mais alta é grande). Em geral, as barras
verdes à direita diferem em comprimento, mostrando que a propagação de pontuação foi
diferente em cada show. Este cenário é um exemplo de heterogeneidade de variância ou
heterocedasticidade: em alguns níveis da variável de concerto, a variância dos escores é
diferente de outros níveis (graficamente, a distância vertical do menor para o mais alto é
diferente após diferentes concertos).
Quando a homoscedasticidade / homogeneidade da variância é importante?

Em termos de estimar os parâmetros dentro de um modelo linear, se assumimos a igualdade


de variância, as estimativas que obteremos usando o método dos mínimos quadrados serão
ótimas. Se as variações para a variável de resultado diferirem ao longo da variável preditor, as
estimativas dos parâmetros dentro do modelo não serão ótimas. O método dos mínimos
quadrados produzirá estimativas "imparciais" de parâmetros, mesmo quando a
homogeneidade de variância não pode ser assumida, mas melhores estimativas podem ser
alcançadas usando diferentes métodos, por exemplo, usando os mínimos quadrados
ponderados em que cada caso é ponderado por uma função de sua variação. Portanto, se tudo
o que você gosta é estimar os parâmetros do modelo em sua amostra, então você não precisa
se preocupar com homogeneidade de variância na maioria dos casos: o método dos mínimos
quadrados produzirá estimativas imparciais (Hayes & Cai, 2007).

Independência

Esta suposição significa que os erros no seu modelo (o erro na equação (2.4)) não estão
relacionados entre si. Imagine que Paul e Julie foram participantes de um experimento onde
eles tiveram que indicar se eles se lembravam de ter visto fotos particulares. Se Paul e Julie
tivessem a oportunidade de falar sobre se tinham visto certas fotos, suas respostas não seriam
independentes: a resposta de Julie a uma dada questão dependeria da resposta de Paulo. Nós
já sabemos que, se estimarmos um modelo para prever suas respostas, haverá erro nessas
previsões e porque as pontuações de Paul e Julie não são independentes, os erros associados a
esses valores previstos também não serão independentes. Se Paulo e Julie não conseguissem
conferir (se estivessem bloqueados em salas diferentes), os termos de erro deveriam ser
independentes (a menos que sejam telepáticos): o erro na previsão da resposta de Paulo não
deve ser influenciado pelo erro na previsão da resposta de Julie. A equação que usamos para
estimar o erro padrão (equação (2.8)) é válida somente se as observações forem
independentes. Lembre-se de que usamos o erro padrão para calcular intervalos de confiança
e testes de significância, então, se violarmos a suposição de independência, nossos intervalos
de confiança e testes de significância serão inválidos. Se usarmos o método dos mínimos
quadrados, as estimativas dos parâmetros do modelo ainda serão válidas, mas não ótimas
(poderíamos obter melhores estimativas usando um método diferente). Em geral, se esta
suposição for violada, devemos aplicar as técnicas abordadas no Capítulo 20, por isso é
importante identificar se a suposição é violada.

Spotting outliers

Quando eles estão isolados, casos extremos e outliers são bastante fáceis de detectar usando
gráficos, como histogramas e quadros; é consideravelmente mais complicado quando os
outliers são mais sutis (o uso de pontuação z pode ser útil). Vejamos um exemplo. Um biólogo
estava preocupado com os potenciais efeitos na saúde dos festivais de música. Ela foi ao
Download Music Festival (aqueles de vocês fora do Reino Unido podem fingir que é Roskilde
Festival, Ozzfest, Lollopalooza, Wacken ou algo assim) e mediram a higiene dos 810
espectadores nos três dias do festival. Ela tentou medir cada pessoa em todos os dias, mas,
porque era difícil rastrear as pessoas, faltava dados nos dias 2 e 3. A higiene foi medida usando
uma técnica padronizada (não se preocupe, não lambendo axila da pessoa) que resulta em
uma pontuação que varia entre 0 (você cheira como um cadáver que foi deixado para
apodrecer a bunda de uma cadela) e 4 (você cheira as rosas doces em um dia de primavera).
Eu sei, por uma experiência amarga, que o saneamento nem sempre é ótimo nesses lugares (o
Festival de Leitura parece particularmente ruim) e, portanto, o biólogo previu que a higiene
pessoal desceria drasticamente nos três dias do festival. Os dados podem ser encontrados no
DownloadFestival.sav.

Usando gráficos para detectar a normalidade

As distribuições de frequência não são apenas boas para detectar outliers; eles são a escolha
natural para olhar a forma da distribuição como um todo. Nós já planejamos um histograma
das pontuações do dia 1 (Figura 5.10). O gráfico P-P (trama probabilidade-probabilidade) é
outro gráfico útil para verificar a normalidade; ele traça a probabilidade cumulativa de uma
variável contra a probabilidade cumulativa de uma distribuição particular (neste caso,
especificamos uma distribuição normal). Os dados são classificados e classificados, então, para
cada classificação, o z-score correspondente é calculado para criar um "valor esperado" que a
pontuação deve ter em uma distribuição normal. Em seguida, o próprio resultado é convertido
em z-score (ver Seção 1.6.4). O escore Z real é plotado em relação ao escore Z esperado. Se os
dados forem normalmente distribuídos, o escore z real será o mesmo que o z-score esperado e
você terá uma linda linha diagonal direta. Este cenário ideal é utilmente plotado no gráfico e
seu trabalho é comparar os pontos de dados com esta linha. Se os valores se enquadram na
diagonal do gráfico, então a variável é normalmente distribuída; no entanto, quando o índice
cai de forma consistente acima ou abaixo da diagonal, então isso mostra que a curtose difere
de uma distribuição normal, e quando os pontos de dados são em forma de S, o problema é
um esqueleto.
Usando números para detectar a normalidade

Os gráficos são particularmente úteis para observar a normalidade em grandes amostras; no


entanto, em amostras menores, pode ser útil explorar a distribuição das variáveis usando o
comando de frequências. A caixa de diálogo principal é mostrada na Figura 5.14. As variáveis
no editor de dados estão listadas no lado esquerdo, e elas podem ser transferidas para a caixa
denominada Variável (s), clicando em uma variável (ou destacando diversas com o mouse) e
depois clicando em. Se uma variável listada na caixa variável (s) for selecionada, ela pode ser
transferida de volta para a lista de variáveis clicando no botão de seta (que agora deve apontar
na direção oposta). Por padrão, o SPSS produz uma distribuição de frequência de todos os
escores na tabela. No entanto, existem outras duas caixas de diálogo que podem ser
selecionadas que oferecem outras opções. A caixa de diálogo Estatísticas é acessada clicando,
e a caixa de diálogo Gráficos é acessada clicando.

A caixa de diálogo Estatísticas permite que você selecione formas de descrever uma
distribuição, como medidas de tendência central (média, modo, mediana), medidas de
variabilidade (alcance, desvio padrão, variância, divisão de quartil), medidas de forma (kurtosis
e skewness ). Selecione a média, modo, mediana, desvio padrão, variância e alcance. Para
verificar que uma distribuição de pontuação é normal, podemos observar os valores de
kurtosis e skewness (ver Seção 1.6.1). A opção Gráficos fornece uma maneira simples de traçar
a distribuição de frequência das pontuações (como um gráfico de barras, um gráfico de pizza
ou um histograma). Já planejamos histogramas de nossos dados, por isso não precisamos
selecionar essas opções, mas você poderia usar essas opções em análises futuras. Quando
você selecionou as opções apropriadas, volte para a caixa de diálogo principal clicando em.
Uma vez na caixa de diálogo principal, clique em para executar a análise.

A saída 5.2 mostra a tabela de estatísticas descritivas para as três variáveis neste exemplo. Em
média, os escores de higiene foram 1,77 (5) no dia 1 do festival, mas desceram para 0,96 e
0,98 nos dias 2 e 3, respectivamente. As outras medidas importantes para nossos propósitos
são a aspereza e a curtose (ver Seção 1.6.1), ambas com um erro padrão associado.

Existem diferentes maneiras de calcular a inclinação e a curtose, mas SPSS usa métodos que
dão valores de zero em uma distribuição normal. Os valores positivos de inclinação indicam
uma acumulação de pontuação à esquerda da distribuição, enquanto os valores negativos
indicam uma acumulação à direita. Os valores positivos da curtose indicam uma distribuição
pontiaguda e pesada, enquanto os valores negativos indicam uma distribuição plana e leve.
Quanto mais o valor for de zero, mais provável é que os dados normalmente não sejam
distribuídos. Para o dia 1, o valor de inclinação é muito próximo de zero (o que é bom) e a
Kurtosis é um pouco negativo. Para os dias 2 e 3, no entanto, há uma aspereza de cerca de 1
(inclinação positiva).

Podemos converter esses valores em pontuações z (Seção 1.6.4), o que nos permite (1)
comparar os valores de distorção e curtose em diferentes amostras que usaram medidas
diferentes e (2) calcular um valor p que nos diz se os valores são significativamente diferentes
de 0 (isto é, normal). Embora haja boas razões para não fazer isso, se você quiser, pode fazê-lo
subtraindo a média da distribuição (neste caso zero) da pontuação e, em seguida, dividindo-se
pelo erro padrão da distribuição.

S−0 K−0
z skewness = z kurtosis=
SE skewness SE kurtosis
Nas equações acima, os valores de S (skewness) e K (kurtosis) e seus respectivos erros padrão
são produzidos pelo SPSS. Esses escores z podem ser comparados com os valores que você
esperaria obter se a inclinação e a curtose não fossem diferentes de 0 (ver Seção 1.6.4). Assim,
um valor absoluto superior a 1,96 é significativo em p <0,05, acima de 2,58 é significativo em p
<0,01 e acima 3,29 é significativo em p <0,001. No entanto, você realmente deve usar esses
critérios somente em pequenas amostras: em amostras maiores examina a forma da
distribuição visualmente, interpreta o valor das estatísticas de skewness e kurtosis e
possivelmente nem se preocupa com a normalidade (Jane Superbrain Box 5.5 ).

Para os escores de higiene, o escore z da skewness é -0.004 / 0.086 = 0.047 no dia 1, 1.095 /
0.150 = 7.300 no dia 2 e 1.033 / 0.218 = 4.739 no dia 3. É bastante claro então, embora no dia
1 as pontuações não são dobradas, nos dias 2 e 3 existe uma inclinação positiva muito
significativa (como ficou evidente com o histograma). Os escores z da curtose são: -0,410 /
0,172 = -2,38 no dia 1, 0,822 / 0,299 = 2,75 no dia 2 e 0,732 / 0,433 = 1,69 no dia 3. Estes
valores indicam problemas significativos com inclinação, curtose ou ambos (em p <.05)
durante os três dias; no entanto, por causa da grande amostra, isso não é surpreendente e,
assim, podemos consolar o teorema do limite central.

Outra maneira de ver o problema é verificar se a distribuição de pontuação se desvia de uma


distribuição normal comparável. O teste de Kolmogorov-Smirnov e o teste de Shapiro-Wilk
fazem isso: eles comparam os escores da amostra com um conjunto de pontuação
normalmente distribuído com a mesma média e desvio padrão. Se o teste não for significativo
(p> 0,05), ele nos diz que a distribuição da amostra não é significativamente diferente de uma
distribuição normal (ou seja, provavelmente é normal). Se, no entanto, o teste for significativo
(p <0,05), então a distribuição em questão é significativamente diferente de uma distribuição
normal (ou seja, não é normal). Esses testes parecem excelentes: em um procedimento fácil,
eles nos dizem se nossos resultados são normalmente distribuídos (bom!). No entanto, Jane
Superbrain Box 5.5 explica alguns bons motivos para não usá-los. Se você insistir em usá-los,
tenha em mente o conselho de Jane e sempre trate seus dados também e tente tomar uma
decisão informada sobre a extensão da não-normalidade com base em evidências
convergentes.

O teste Kolmogorov-Smirnov (K-S; Figura 5.15) é acessado através do comando explorar. A


Figura 5.16 mostra as caixas de diálogo para este comando. Primeiro, insira quaisquer variáveis
de interesse na caixa denominada Lista Dependente, destacando-as no lado esquerdo e
transferindo-as clicando em. Para este exemplo, selecione os escores de higiene para os três
dias. Se você clicar em ESTATISTICAS aparece uma caixa de diálogo, mas a opção padrão está
bem (ele produzirá meios, desvios padrão e assim por diante). A opção mais interessante para
nossos propósitos atuais é acessada clicando em gráficos. Nesta caixa de diálogo, selecione a
opção, e isso produzirá o teste K-S e algumas parcelas quantile-quantile (Q-Q) normais. Um
plano Q-Q é muito semelhante ao gráfico P-P que encontramos na seção 5.3.2, exceto que ele
traça os quantiles (Seção 1.6.3) dos dados em vez de cada pontuação individual nos dados. Os
quantiles esperados são uma linha diagonal direta, enquanto os quantiles observados são
plotados como pontos individuais. O gráfico Q-Q pode ser interpretado da mesma forma que
um gráfico P-P: qualquer desvio dos pontos da linha diagonal representa um desvio da
normalidade. A curtose é mostrada pelos pontos que flutuam acima ou abaixo da linha,
enquanto a inclinação é mostrada pelos pontos que serpenteiam em torno da linha na forma
de "S". Se você tiver muitos escores, os gráficos do Q-Q podem ser mais fáceis de interpretar
do que os gráficos da P-P, porque eles exibirão menos valores.
Por padrão, o SPSS produzirá boxplots (dividido de acordo com o grupo se um fator for
especificado) e os diagramas de haste e folha também. Também precisamos clicar para dizer
ao SPSS como lidar com os valores em falta. Isso é importante porque, embora comecei com
810 pontos no dia 1, no dia 2, temos apenas 264 e no dia 3 apenas 123. Por padrão, o SPSS
usará apenas casos para os quais existem pontuações válidas em todas as variáveis
selecionadas. Isso significaria que, para o dia 1, apesar de termos 810 pontuações, ele usará
apenas 123 casos para os quais há pontuação em todos os três dias. Isso é conhecido como
excluindo os casos listwise. No entanto, queremos que ele use todas as pontuações que tem
em um determinado dia, que é conhecido como pairwise. Há mais informações sobre esses
dois métodos no SPSS Tip 5.1. Depois de clicar em, selecione Excluir casos em paridade e, em
seguida, clique em para retornar à caixa de diálogo principal e clique em para executar a
análise.

SPSS produzirá uma tabela de estatística descritiva (média, etc.) que deve ter os mesmos
valores que as tabelas obtidas usando o procedimento de frequências. A tabela importante é a
do teste K-S (saída 5.3). Esta tabela inclui a própria estatística de teste, os graus de liberdade
(que devem ser iguais ao tamanho da amostra) e o valor de significância deste teste. Lembre-
se de que um valor significativo (Sig. Menor de .05) indica um desvio da normalidade. Para o
dia 1, o teste K-S é quase não significante (p = .097), o que é surpreendentemente próximo de
significante, conforme a pontuação normal do dia 1 no histograma (Figura 5.13). No entanto, o
tamanho da amostra no dia 1 é muito grande (N = 810) e o significado do teste KS para esses
dados mostra como em grandes amostras, mesmo os desvios pequenos e sem importância da
normalidade podem ser considerados significativos por este teste (Jane Superbrain Box 5.5 ).
Para os dias 2 e 3, o teste é altamente significativo, indicando que essas distribuições não são
normais, o que provavelmente refletirá a inclinação observada nos histogramas para esses
dados (Figura 5.13).

Relatando o teste K-S

A estatística de teste para o teste K-S é indicada por D, e devemos relatar os graus de liberdade
(df) da tabela entre parênteses após o D. Podemos relatar os resultados na Saída 5.3 da
seguinte maneira:

Os escores de higiene no dia 1, D (810) = 0,029, p = 0,97, não se desviaram significativamente


do normal; no entanto, o dia 2, D (264) = 0,121, p <0,001 e o dia 3, D (123) = 0,140, p <0,001,
os escores foram ambos significativamente não-normais.

Normalidade dentro de grupos e o comando de arquivo dividido

Vimos anteriormente que, quando as variáveis preditoras são formadas por categorias, se você
decidir que você precisa verificar a suposição de normalidade, então você precisa fazê-lo
dentro de cada grupo separadamente (Jane Superbrain Box 5.1). Por exemplo, para os escores
de higiene, temos dados para homens e mulheres (na variável Sexo). Se fizemos alguma
previsão sobre a existência de diferenças de higiene entre homens e mulheres em um festival
de música, então devemos observar a normalidade em homens e mulheres separadamente.
Existem várias maneiras de produzir estatísticas descritivas básicas para grupos separados.
Primeiro, vou apresentá-lo à função de arquivo dividido. Esta função permite que você
especifique uma variável de agrupamento (lembre-se, essas variáveis são usadas para
especificar categorias de casos). Qualquer procedimento subsequente no SPSS é então
realizado em cada categoria de casos separadamente.
Se quisermos obter estatísticas descritivas separadas para homens e mulheres em nossos
resultados de higiene do festival, podemos dividir o arquivo e, em seguida, proceder usando o
comando de frequências descrito na seção anterior. Para dividir o arquivo, selecione ou clique
em Data Split file. Na caixa de diálogo resultante (Figura 5.17) selecione a opção organizar
saída por grupos. Uma vez que esta opção é selecionada, a caixa Grupos Baseados será
ativada. Selecione a variável que contém os códigos de grupo pelo qual você deseja repetir a
análise (neste exemplo selecione Sexo) e arraste-a para a caixa ou clique em Por padrão, o
SPSS classificará o arquivo por esses grupos (ou seja, listará um Categoria seguida pelo outro
no editor de dados). Depois de dividir o arquivo, use o comando de frequências (veja a seção
anterior). Vamos solicitar estatísticas para todos os três dias, como na Figura 5.14.

A saída 5.4 mostra os resultados, que foram divididos em duas tabelas: os resultados para os
homens e os resultados para as mulheres. Os homens marcaram menores que as fêmeas nos
três dias do festival (ou seja, estavam cheirosos). Os valores de distorção e curtose são
semelhantes aos do sexo masculino e feminino nos dias 2 e 3, mas diferem um pouco no dia 1:
como já indicado, os machos mostram uma inclinação positiva muito pequena (0,200), mas
para as fêmeas a inclinação é ligeiramente negativa (- 0,176). Em ambos os casos, a inclinação
no dia 1 é muito pequena. A Figura 5.18 mostra os histogramas dos escores de higiene
divididos de acordo com o gênero do festival. As pontuações masculinas e femininas têm
distribuições similares. No dia 1, eles são bastante normais (embora as fêmeas talvez
demonstrem uma inclinação negativa muito ligeira, o que indica que uma maior proporção
deles estava Maior ponta de higiene do que os machos). Nos dias 2 e 3, os machos e as fêmeas
mostram a inclinação positiva característica que vimos na amostra como um todo. Parece que
proporcionalmente mais fêmeas estão na extremidade distorcida da distribuição (ou seja, na
extremidade higiênica).

(Figura 5.16); Porque o comando do arquivo dividido está ligado, nós obteríamos o teste K-S
realizado em machos e fêmeas separadamente. Um método alternativo é dividir a análise por
grupo dentro do próprio comando explorar. Primeiro, desligue o arquivo dividido, clicando em
(ou clique em) para ativar a caixa de diálogo na Figura 5.17. Selecione Analisar todos os casos,
não crie grupos e clique em. A função de arquivo dividido está desativada e as análises serão
realizadas nos dados como um todo. Em seguida, ative o comando explorar como fizemos
antes:. Podemos solicitar testes separados para machos e fêmeas, colocando o gênero na caixa
denominada Lista de Fatos como na Figura 5.21 e selecionando as mesmas opções como
descrito anteriormente. Vamos fazer isso para os resultados de higiene do dia 1. Você deve ver
a tabela na Saída 5.5, o que mostra que a distribuição dos índices de higiene era normal para
os homens (o valor de Sig. É maior que 0,05), mas não para as fêmeas (o valor de Sig. É menor
que 0,05).

SPSS também produz um gráfico Q-Q normal (veja a Figura 5.19). Apesar de o KS ter resultados
completamente diferentes para machos e fêmeas, as parcelas de QQ são notavelmente
similares: não há sinal de um grande problema com a curtose (os pontos não se inclinam
especialmente acima ou abaixo da linha) e há alguma ligeira inclinação (o O gráfico feminino
em particular tem uma ligeira forma de S). No entanto, ambos os gráficos mostram que os
quantiles são muito próximos da linha diagonal, o que, não esqueçamos, representa uma
distribuição normal perfeita. Para as fêmeas, o gráfico está em desacordo com o teste K-S
significativo, e isso ilustra o meu ponto anterior de que, se você tiver uma amostra grande,
testes como o K-S o levarão a concluir que mesmo desvios muito menores da normalidade são
"significativos"...

Usando gráficos para detectar problemas de linearidade ou homoscedasticidade


Pode parecer estranho ter optado por considerar simultaneamente a linearidade e a
homoscedasticidade. No entanto, há um gráfico que mostra problemas com ambas as
premissas. Esses pressupostos referem-se ambos aos erros (a.k.a. residuals) no modelo que
cabemos nos dados. Podemos criar um diagrama de dispersão dos valores dos resíduos em
relação aos valores do resultado previsto pelo nosso modelo. Ao fazê-lo, estamos a analisar se
existe uma relação sistemática entre o que sai do modelo (os valores previstos) e os erros no
modelo. Normalmente, nós convertemos os valores e erros previstos para os escores z, 7,
então esse gráfico às vezes é referido como zpred vs. zresid. Se a linearidade e a
homocedasticidade forem verdadeiras, não deve haver uma relação sistemática entre os erros
no modelo e o que o modelo prevê. Olhar para este gráfico pode, portanto, matar dois
pássaros com uma pedra. Se este gráfico funels para fora, então as chances são de que existe
heteroscedasticidade nos dados. Se houver algum tipo de curva neste gráfico, então, as
chances são de que os dados quebraram a suposição de linearidade.

A Figura 5.20 mostra vários exemplos do enredo de resíduos padronizados contra valores
preditos padronizados. O painel superior esquerdo mostra uma situação em que os
pressupostos de linearidade e homocedasticidade foram atendidos. O painel superior direito
mostra um gráfico similar para um conjunto de dados que viole a suposição de
homoscedasticidade. Observe que os pontos formam um funil: eles se tornam mais espalhados
pelo gráfico. Essa forma de funil é típica da heteroscedasticidade e indica variação crescente
em todos os resíduos. O painel inferior esquerdo mostra um gráfico de alguns dados em que
há uma relação não-linear entre o resultado eo preditor: há uma curva clara nos resíduos.
Finalmente, o painel inferior direito ilustra dados que não só têm uma relação não-linear, mas
também mostram heteroscedasticidade. Observe, em primeiro lugar, a tendência curva dos
resíduos e, em seguida, observe que, em uma extremidade do enredo, os pontos são muito
próximos, enquanto que no outro lado estão amplamente dispersos. Quando esses
pressupostos foram violados, você não verá esses padrões exatos, mas espero que essas
parcelas o ajudem a entender as anomalias gerais que você deve procurar. Examinaremos um
exemplo de como esse gráfico é usado no Capítulo 8, mas, por enquanto, apenas esteja ciente
dos padrões a serem observados.

Detecção de heteroscedasticidade / heterogeneidade de variância usando números

Lembre-se de que a homoscedasticidade / homogeneidade da variância significa que, ao


passar por níveis de uma variável, a variância do outro não deve mudar. Se você coletou
grupos de dados, isso significa que a variância de sua variável de resultado ou variáveis deve
ser a mesma em cada um desses grupos. Às vezes, você encontrará o teste de Levene (Levene,
1960), que testa a hipótese nula de que as variações em diferentes grupos são iguais. É um
teste muito simples e elegante que funciona ao fazer uma ANOVA unidirecional (ver Capítulo
11) nos escores de desvio; Isto é, a diferença absoluta entre cada pontuação e a média do
grupo do qual veio (ver Glass, 1966, para uma explicação muito legível). Por enquanto, tudo o
que você precisa saber é que, se o teste de Levene for significativo em p ≠ .05, então você
conclui que a hipótese nula é incorreta e que as variâncias são significativamente diferentes -
portanto, a violação da homogeneidade das variâncias foi assumida. Se, no entanto, o teste de
Levene não é significativo (ou seja, p> 0,05), então as variâncias são aproximadamente iguais e
a suposição é sustentável. Embora o teste de Levene possa ser selecionado como uma opção
em muitos dos testes estatísticos que o exigem, é melhor olhar para ele quando você está
explorando dados porque informa o modelo que você se encaixa. Tal como acontece com o
teste K-S (e outros testes de normalidade), quando o tamanho da amostra é grande, pequenas
diferenças nas variâncias grupais podem produzir um teste de Levene significativo (Jane
Superbrain Box 5.5). Há também argumentos muito fortes para não usá-lo (Jane Superbrain
Box 5.6). Algumas pessoas também observam a Fmax de Hartley, também conhecida como a
razão de variância (Pearson & Hartley, 1954). Esta é a razão das variâncias entre o grupo com a
maior variação e o grupo com a menor variância. Essa relação foi comparada aos valores
críticos em um quadro publicado por Hartley. Embora essa relação não seja usada com muita
freqüência, se você quiser os valores críticos (para um nível de significância de .05), veja Oliver
Twisted. Os valores críticos dependem do número de casos por grupo e do número de
variâncias comparadas. Por exemplo, com tamanhos de amostra (n) de 10 por grupo, uma
Fmax inferior a 10 é mais ou menos sempre não significativa, com 15-20 por grupo, a
proporção deve ser inferior a 5, e com Amostras de 30-60 a proporção deve ser inferior a cerca
de 2 ou 3.

Se você ainda decidir fazer o teste de Levene

Podemos obter o teste de Levene usando o menu Explorar que usamos na seção anterior.
Cumprindo os escores de higiene, compararemos as variações entre machos e fêmeas no dia 1
do festival. Use para abrir a caixa de diálogo na Figura 5.21. Transfira a variável day1 da lista do
lado esquerdo para a caixa denominada Lista Dependente, clicando no próximo a esta caixa;
Porque queremos dividir o resultado pela variável de agrupamento para comparar as
variâncias, selecione a variável Gênero e transfira-a para a caixa denominada Fator, clicando
no apropriado. Em seguida, clique em para abrir a outra caixa de diálogo na Figura 5.21. Para
obter o teste de Levene, precisamos selecionar uma das opções em que diz Spread vs. level
with Levene test. Se você selecionar, o teste de Levene é realizado nos dados brutos (um bom
local para começar). Quando você terminar com esta caixa de diálogo, clique em para retornar
à caixa de diálogo Explorer principal e clique em para executar a análise.

A saída 5.6 mostra a tabela para o teste de Levene. O teste pode ser baseado em diferenças
entre os escores e a média, e entre os escores e a mediana. A mediana é ligeiramente
preferível (porque é menos tendenciosa por outliers). Ao usar a média (p = 0,30) e a mediana
(p = 0,037), os valores de significância são inferiores a 0,05, indicando uma diferença
significativa entre as variâncias masculina e feminina. Para calcular a razão de variância,
precisamos dividir a maior variação pelo menor. Você deve encontrar as variações na sua
saída, mas, caso contrário, obtivemos esses valores na Saída 5.4. A variância masculina foi de
0,413 e a do sexo feminino 0,496; A razão de variância é, portanto, 0,496 / 0,413 = 1,2.
Essencialmente, as variações são praticamente iguais. Então, por que o teste de Levene nos diz
que eles são significativamente diferentes? A resposta é porque o tamanho da amostra é tão
grande: nós possuímos 315 machos e 495 fêmeas, de modo que mesmo esta pequena
diferença nas variâncias é mostrada como significativa pelo teste de Levene (Jane Superbrain
Box 5.5). Esperemos que este exemplo convence você a tratar estes testes cautelosamente.

Relatórios do teste de Levene

O teste de Levene pode ser denotado pela letra F e existem dois graus de liberdade diferentes.
Como tal, você pode denunciá-lo, em forma geral, como F (df1, df2) = valor, p = p-valor. Assim,
para os resultados na Saída 5.6, poderíamos dizer: Para as notas de higiene no dia 1 do festival,
as variações foram desiguais para homens e mulheres, F (1, 808) = 4,74, p = 0,03.

5.4. Reduzindo o viés


Tendo analisado potenciais fontes de viés, a próxima questão é como reduzir o impacto do
viés. Essencialmente, existem quatro métodos para corrigir problemas com os dados, que
podem ser lembrados com a sigla útil de TWAT (ou WATT, se preferir):

1. Corte os dados: Exclua uma certa quantidade de pontuação dos extremos.


2. Winsorizing: Substitua outliers com o valor mais alto que não é um outlier.
3. Analisar com métodos robustos: normalmente envolve uma técnica conhecida como
bootstrapping. Transforme os dados: envolve a aplicação de uma função matemática
aos resultados para tentar corrigir quaisquer problemas com eles.

Provavelmente, a melhor dessas opções é usar testes robustos, que é um termo aplicado a
uma família de procedimentos para estimar estatísticas confiáveis mesmo quando as
premissas normais da estatística não são atendidas (Seção 5.4.3). Vejamos cada técnica com
mais detalhes.

Recortar os dados

Recortar os dados significa excluir algumas pontuações dos extremos, e é preciso muitas
formas. Na sua forma mais simples, poderia ser excluir os dados da pessoa que contribuiu com
o outlier. No entanto, isso deve ser feito somente se você tiver uma boa razão para acreditar
que este caso não é da população que você pretende provar. Por exemplo, se você estivesse
investigando fatores que afetaram a quantidade de gatos ronronados e um gato não ronronou,
isso provavelmente seria um outlier (todos os gatos ronronam). Após a inspeção, se você
descobriu que esse gato era realmente um cachorro vestindo um traje de gato (daí por que
não purrou), então você teria motivos para excluir este caso, porque ele vem de uma
população diferente (cães que gostam de se vestir Como gatos) do que sua população-alvo
(gatos). Mais frequentemente, cortar envolve a remoção de pontuações extremas usando uma
das duas regras: (1) uma regra baseada em porcentagem; E (2) uma regra baseada em desvio
padrão. Uma regra baseada em porcentagem seria, por exemplo, excluir os 10% dos índices
mais altos e mais baixos. Vejamos um exemplo. Meston e Frohlich (2003) relatam um estudo
mostrando que pessoas heterossexuais classificam uma foto de alguém do sexo oposto como
mais Atraente depois de montar uma montanha-russa em comparação com antes. Imagine
que levamos 20 pessoas quando saíram da montanha-russa Rockit em Universal Studios em
Orlando9 e pediram-lhes para avaliar a atratividade de alguém em uma fotografia em uma
escala de 0 (parece Jabba the Hutt) a 10 (meus olhos têm Apenas explodiram porque não
foram projetados para contemplar tal beleza). A Figura 5.22 mostra essas pontuações. Como
você pode ver, a maioria das pessoas deu avaliações acima do ponto médio da escala: eles
eram bastante positivos em suas classificações. No entanto, havia duas pessoas que deram
zeros. Se nós cortássemos 5% dos dados de cada extremidade, isso significaria excluir uma
pontuação em cada extremo (há 20 pontuações e 5% de 20 é 1). A Figura 5.22 mostra que isso
envolve a exclusão de um 0 e um 8. Podemos calcular um meio cortado a 5% trabalhando a
média para este conjunto de dados aparados. Da mesma forma, a Figura 5.22 mostra que com
20 pontuações, um ajuste de 10% significaria eliminar duas pontuações de cada extremo, e
uma guarnição de 20% implicaria a exclusão de quatro pontuações de cada extremo. Se você
tomar o corte até o extremo, então você obtém a mediana, que é o valor que resta quando
você cortou tudo, exceto a pontuação intermediária. Se calculamos a média em uma amostra
que foi cortada dessa maneira, é chamado (sem surpresa) de uma média aparada. Uma
medida robusta similar de localização é o M-estimator, que difere de uma média aparada em
que a quantidade de aparar é determinada empiricamente. Em outras palavras, em vez de o
pesquisador decidir antes da análise quanto dos dados cortar, um estimador M determina a
quantidade ideal de aparagem necessária para dar uma estimativa robusta de, digamos, a
média. Isto tem a vantagem óbvia de que você nunca excede ou desconstrói seus dados. No
entanto, a desvantagem é que nem sempre é possível alcançar uma solução.

Se você fizer a auto teste, deve achar que a classificação média foi de 6 com uma variância de
5,37. A média aparada de 5% é de 6,22, a média de 10% cortada é de 6,50 e a média de 20%
reduzida é de 6,58. As médias ficam mais elevados neste caso porque o corte é reduzir o
impacto de poucos escores que eram muito pequenos (o par de gits miseráveis que deram
classificações de 0). O que acontece com as variações? Para a amostra geral é de 5,37, mas
para os dados de 5%, 10% e 20% recortados, você obtém 3,59, 1,20 e 0,45, respectivamente.
As variações ficam menores (e mais estáveis) porque, novamente, os valores abertos têm
menos impacto. Vimos anteriormente que a precisão da média e variância depende de uma
distribuição simétrica, mas uma média aparada (e variância) será relativamente precisa mesmo
quando a distribuição não é simétrica, porque ao cortar as extremidades da distribuição,
removemos outliers e distorção Que prejudicam a média. Alguns métodos robustos funcionam
aproveitando as propriedades da média aparada. As regras baseadas no desvio padrão
envolvem o cálculo da média e o desvio padrão de um conjunto de pontuações e, em seguida,
a remoção de valores que são um certo número de desvios padrão maiores do que a média.
Por exemplo, ao analisar os dados do tempo de reação (que é notoriamente bagunçado), é
muito comum remover quaisquer tempos de reação superiores (ou abaixo) a 2,5 desvios
padrão acima da média (Ratcliff, 1993). Para os dados da montanha-russa, o desvio padrão é
2,32, então 2,5 vezes o desvio padrão é de 5,8. A média era 6, portanto, eliminávamos
pontuações superiores a 6 + 5,8 = 11,8, das quais não havia nenhuma (era apenas uma escala
de 10 pontos); Também eliminamos as pontuações inferiores a 6 - 5,8 = 0,2, o que significa
eliminar as duas pontuações de zero porque são as únicas pontuações inferiores a 0,2. Se
recalcularmos a média, excluindo esses dois zeros, obtemos 6,67 e uma variância de 1,29.
Novamente, você pode ver que esse método reduz o impacto de pontuações extremas. No
entanto, existe um problema fundamental com o corte baseado em desvio padrão, que é que
a média eo desvio padrão são ambos altamente influenciados por outliers (ver Seção 5.2.2);
Portanto, se você tiver outliers nos dados, o critério que você usa para reduzir seu impacto já
foi tendencioso por eles. Quando se trata de implementar esses métodos no SPSS, não há uma
maneira simples de fazê-lo. Apesar de o SPSS calcular uma média reduzida de 5% para você, se
você usar o comando explore (Figura 5.16), não removerá os casos reais do conjunto de dados,
de modo a fazer testes com base em uma amostra cortada que você precisaria cortar
manualmente Os dados (ou fazê-lo usando comandos de sintaxe) ou use o comando select
cases (veja a Lanterna de Oditi).

Winsorizing

A obtenção dos dados envolve a substituição de outliers com a próxima pontuação mais alta
que não é um outlier. É perfeitamente natural sentir-se desconfortável com a idéia de mudar
os resultados que você coletou para valores diferentes. Parece um pouco de trapaça. No
entanto, você precisa ter em mente que, se a pontuação que você está mudando é muito
pouco representativa da amostra como um todo e prejudica seu modelo estatístico, então não
é trapaça; Está melhorando sua precisão.10 O que é trapaça não é lidar com casos extremos
que prejudicam os resultados em favor de sua hipótese, ou alteram os índices de forma
sistemática além de reduzir o viés (novamente, talvez para apoiar sua hipótese). Existem
algumas variações sutis na vitoria, como a substituição de pontuações extremas por uma
pontuação 3 desvios padrão da média. Um escore z de 3,29 constitui um outlier (ver 5.3.1)
para que possamos calcular qual pontuação daria origem a uma pontuação z de 3.29 (ou talvez
3) reorganizando a equação z-score, o que nos dá X = ( Z × s) +. Tudo o que estamos fazendo é
calcular o (s) desvio (s) padrão (s) dos dados e, sabendo que z é 3 (ou 3.29 se você deseja ser
exato), adicionando três vezes o desvio padrão para a média e substituindo nosso Outliers com
essa pontuação. Tal como acontece com o corte, isso é algo que você precisa fazer
manualmente no SPSS ou use o comando select cases (veja a Lanterna de Oditi).

Métodos robustos

De longe, a melhor opção se você tiver dados irritantes (além de colar uma grande espada de
samurai através da sua cabeça) é usar um teste robusto para violações de pressupostos e
valores atípicos. Em outras palavras, testes que são relativamente pouco afetados por dados
irritantes. O primeiro conjunto de testes são aqueles que não dependem da assunção de dados
normalmente distribuídos (ver Capítulo 6) .11 Uma coisa que você descobrirá rapidamente
sobre testes não-paramétricos é que eles foram desenvolvidos apenas por um alcance
bastante limitado Situações. Então, dias felizes, se você quiser comparar dois meios, mas dias
tristes e solitários, ouvindo Joy Division se você tiver um projeto experimental complexo.

Uma abordagem muito mais promissora é usar métodos robustos, que mencionei
anteriormente. Esses testes se desenvolveram à medida que os computadores ficaram mais
sofisticados (fazer esses testes sem computadores seria apenas menos doloroso do que rasgar
sua pele e mergulhar em um banho de sal). Como esses testes funcionam está além do escopo
deste livro (e meu cérebro), mas dois conceitos simples lhe darão a idéia geral. O primeiro que
já examinamos: medidas robustas do centro da distribuição, como a média aparada e os
estimadores M. O segundo é o bootstrap (Efron & Tibshirani, 1993), que é uma idéia muito
simples e elegante. O problema que temos é que não conhecemos a forma da distribuição de
amostragem, mas a normalidade em nossos dados nos permite inferir que a distribuição da
amostragem é normal (e, portanto, podemos saber a probabilidade de ocorrência de uma
estatística de teste em particular). A falta de normalidade nos impede de conhecer a forma da
distribuição de amostragem, a menos que tenhamos grandes amostras. O Bootstrapping
contorna esse problema estimando as propriedades da distribuição de amostragem a partir
dos dados da amostra. A Figura 5.23 ilustra o processo: de fato, os dados da amostra são
tratados como uma população a partir da qual são colhidas amostras menores (chamadas
amostras de bootstrap) (colocando cada pontuação de volta antes de uma nova ser extraída da
amostra). O parâmetro de interesse (por exemplo, a média) é calculado em cada amostra de
bootstrap. Este processo é repetido talvez 2000 vezes. O resultado final é que temos
estimativas de parâmetros de 2000, uma em cada amostra de bootstrap. Há duas coisas que
podemos fazer com essas estimativas: a primeira é ordená-las e calcular os limites dentro dos
quais 95% delas caem. Por exemplo, na Figura 5.23, 95% da amostra de bootstrap se situam
entre 2 e 9. Podemos usar esses valores como uma estimativa dos limites do intervalo de
confiança de 95% do parâmetro. O resultado é conhecido como um intervalo de confiança de
percentile bootstrap (porque é baseado nos valores entre os quais 95% das estimativas de
exemplo do bootstrap caem). A segunda coisa que podemos fazer é calcular o desvio padrão
das estimativas dos parâmetros das amostras do bootstrap e usá-lo como o erro padrão das
estimativas dos parâmetros. Portanto, quando usamos o bootstrapping, estamos efetivamente
a fazer com que o computador use nossos dados de amostra para imitar o processo de
amostragem descrito na Seção 2.5. Um ponto importante a lembrar é que, porque o
bootstrapping baseia-se em tirar amostras aleatórias dos dados que você coletou, as
estimativas que você obterá serão ligeiramente diferentes toda vez. Isto não é nada para se
preocupar. Para uma introdução bastante suave ao conceito de bootstrapping, veja Wright,
London e Field (2011). O SPSS implementa bootstrapping em alguns contextos, o que
encontraremos ao longo de vários capítulos. Alguns procedimentos possuem uma opção de
inicialização, que pode ser acessada clicando para ativar a caixa de diálogo na Figura 5.24 (veja
Lanterna de Oditi). Selecione para ativar o bootstrapping para o procedimento que você está
fazendo atualmente. Em termos de opções, o SPSS calculará um intervalo de confiança de
percentil de 95% (), mas você pode mudar o método para um pouco mais preciso (Efron &
Tibshirani, 1993) chamado de intervalo de confiança corrigido e acelerado (você também pode
mudar O nível de confiança digitando um número diferente de 95 no campo denominado Nível
(%). Por padrão, o SPSS usa 1000 amostras de inicialização, o que é um número razoável, e
você certamente não precisaria usar mais de 2000. Existem versões De procedimentos comuns
como ANOVA, ANCOVA, correlação e regressão múltipla com base em meios aparados e
bootstrapping que permitem ignorar tudo sobre o que discutimos sobre o viés neste capítulo.
Essa é uma história feliz, mas com um final trágico porque você não pode Implemente-os
diretamente no SPSS. O guia definitivo para esses testes é o excelente livro de Wilcox (2012).
Graças a Wilcox, esses testes podem ser implementados usando um programa de estatísticas
gratuito chamado R (www.r-project.org). Re é um plug-in para o SPSS que permite que você
use R através da interface SPSS, mas é complicado trabalhar e, uma vez que está funcionando,
tudo o que realmente faz é permitir que você digite os comandos que você digitaria em R.
Portanto, Eu acho muito mais fácil apenas usar R. Se você quiser seguir essa rota, então escrevi
uma versão deste livro para R que cobre esses testes robustos em alguns detalhes (Field, Miles
e Field, 2012). (Desculpe, isso foi um plug sem vergonha).

Transformando dados

A última coisa que você pode fazer para combater problemas de normalidade e linearidade é
transformar seus dados. A idéia por trás das transformações é que você faça algo para cada
pontuação para corrigir problemas de distribuição, outliers, falta de linearidade ou variâncias
desiguais. Embora alguns alunos muitas vezes (compreensivelmente) pensem que a
transformação de dados soa desonesto (a frase "fudging your results" nas mentes de algumas
pessoas), na verdade, não é porque você faz o mesmo com todas as suas pontuações. Como
tal, transformar os dados altera a forma das relações entre variáveis, mas as diferenças
relativas entre as pessoas para uma determinada variável permanecem iguais, então podemos
ainda quantificar esses relacionamentos. No entanto, ele modifica as diferenças entre
diferentes variáveis (porque altera as unidades de medida). Portanto, se você estiver olhando
relações entre variáveis (por exemplo, regressão), basta transformar a variável problemática,
mas se você estiver analisando diferenças entre variáveis (por exemplo, mudança em uma
variável ao longo do tempo), você precisa transformar todas essas variáveis. Por exemplo,
nossos dados de higiene do festival não eram normais nos dias 2 e 3 do festival. Agora,
podemos querer ver como os níveis de higiene mudaram nos três dias (ou seja, compare a
média no dia 1 aas médias nos dias 2 e 3 para ver se as pessoas ficaram mais cheias). Os dados
dos dias 2 e 3 foram distorcidos e precisam ser transformados, mas, como podemos comparar
os dados com os resultados no dia 1, também teremos que transformar os dados do dia 1
(mesmo que os escores não tenham sido desviados). Se também não alterarmos os dados do
dia 1, as diferenças nas notas de higiene que achamos do dia 1 ao dia 2 ou 3 serão devidas a
nós transformando uma variável e não as demais. No entanto, se olhássemos para o
relacionamento entre as pontuações do dia 1 e do dia 2 (e não a diferença entre eles),
poderíamos transformar apenas as pontuações do dia 2 e deixar o resultado do dia 1 sozinho.

Escolhendo uma transformação

Existem várias transformações que você pode fazer com os dados úteis para corrigir vários
problemas. No entanto, se essas transformações são necessárias ou úteis é uma questão
bastante complexa (ver Jane Superbrain Box 5.7) .12 No entanto, como elas são usadas, a
Tabela 5.1 mostra algumas transformações comuns e seus usos.13 A maneira de decidir qual
transformação usar é Por um bom teste e erro à moda antiga: experimente um, veja se ele
ajuda e, se não, tente um diferente.

Tentar diferentes transformações pode ser muito demorado. No entanto, se a


heterogeneidade de variância é a sua questão, podemos ver o efeito de uma transformação
bastante rapidamente. Na seção 5.3.3.3 vimos como usar a função explorar para obter o teste
de Levene. Nessa seção, corremos a análise selecionando as pontuações brutas (). No entanto,
se as variações se revelarem desiguais, como fizeram no nosso exemplo, você pode usar a
mesma caixa de diálogo (Figura 5.21), mas selecione. Quando você faz isso, você deve notar
uma lista suspensa que se torna ativa e, se você clicar nisso, você notará que ele enumera
várias transformações, incluindo as que acabei de descrever. Se você selecionar uma
transformação desta lista (log natural talvez ou raiz quadrada), o SPSS calculará o teste de
Levene se você fosse transformar os dados usando esse método. Isso pode poupar muito
tempo tentando diferentes transformações.

A função de cálculo

Para fazer transformações no SPSS, usamos o comando computar, que nos permite realizar
funções (como adicionar ou multiplicar) em colunas de dados no editor de dados. Para acessar
a caixa de diálogo Compute Variable, selecione. A Figura 5.25 mostra a caixa de diálogo
principal; Tem uma lista de funções no lado direito, um teclado semelhante a uma calculadora
no centro e um espaço em branco que rotinei a área de comando. Você digita um nome para
uma nova variável na área denominada Variável de destino e, em seguida, você escreve algum
tipo de comando na área de comando para dizer ao SPSS como criar essa nova variável. Você
usa uma combinação de variáveis existentes selecionadas da lista à esquerda e expressões
numéricas. Então, por exemplo, você poderia usá-lo como uma calculadora para adicionar
variáveis (ou seja, adicionar duas colunas no editor de dados para fazer uma terceira). No
entanto, você também pode usá-lo para gerar dados sem usar variáveis existentes também.
Existem centenas de funções internas que o SPSS agrupou. Na caixa de diálogo, esses grupos
estão listados na área denominada Grupo de funções; Ao selecionar um grupo de funções,
uma lista de funções disponíveis dentro desse grupo aparecerá na caixa denominada Funções
e Variáveis Especiais. Se você selecionar uma função, uma descrição dessa função aparece na
caixa branca indicada na Figura 5.25. Você pode inserir nomes de variáveis na área de
comando, selecionando a variável necessária da lista de variáveis e clicando em. Da mesma
forma, você pode selecionar uma determinada função da lista de funções disponíveis e inseri-
la na área de comando clicando em.

Primeiro, digite um nome de variável na caixa denominada Variável de destino, depois clique e
outra caixa de diálogo, onde você pode dar a variável um rótulo descritivo e especificar se é
uma variável numérica ou de string (ver Seção 3.5.2). Quando você escreveu seu comando
para o SPSS para executar, clique em para executar o comando e criar a nova variável. Se você
digitar um nome de variável que já existe no editor de dados, o SPSS irá dizer-lhe e perguntar
se deseja substituir essa variável existente. Se você responder com Sim, o SPSS substituirá os
dados na coluna existente com o resultado do comando de computação; Se você responder
com Não, nada acontecerá e você precisará mudar o nome da variável alvo. Se você estiver
calculando muitas novas variáveis, pode ser mais rápido usar a sintaxe (veja SPSS Tip 5.2).

Vamos primeiro olhar para algumas das funções simples:


Adição: Este botão coloca um sinal de mais na área de comando. Por exemplo, com os nossos
dados de higiene, 'day1 + day2' cria uma coluna na qual cada linha contém a nota de higiene
da coluna rotulada dia1 adicionada à pontuação da coluna rotulada dia2 (por exemplo, para o
participante 1: 2,65 + 1,35 = 4 ).

Subtração: este botão coloca um sinal de menos na área de comando. Por exemplo, se
quisermos calcular a mudança de higiene do dia 1 ao dia 2, poderíamos digitar 'day2 - day1'.
Isso cria uma coluna em que cada linha contém a pontuação da coluna rotulada dia1 subtraída
da pontuação da coluna rotulada dia 2 (por exemplo, para o participante 1: 2,65 - 1,35 = 1,30).

Multiplicar: este botão coloca um sinal de multiplicação na área de comando. Por exemplo,
'day1 * day2' cria uma coluna que contém a pontuação da coluna identificada dia1
multiplicada pela pontuação da coluna rotulada dia 2 (por exemplo, para o participante 1: 2,65
× 1,35 = 3,58).

Divisão: este botão coloca um sinal de divisão na área de comando. Por exemplo, 'day1 / day2'
cria uma coluna que contém a pontuação da coluna rotulada dia1 dividida pela pontuação da
coluna rotulada dia 2 (por exemplo, para participantes 1: 2,65 / 1,35 = 1,96).

Exponenciação: Este botão aumenta o termo anterior ao poder do termo seguinte. Então,
'day1 ** 2' cria uma coluna que contém as pontuações na coluna day1 aumentada para o
poder de 2 (ou seja, o quadrado de cada número na coluna day1: para o participante 1, 2.652 =
7.02). Do mesmo modo, 'day1 ** 3' cria uma coluna com valores de day1 cubed.

Menos do que: Esta operação geralmente é usada para funções de "incluir caso". Se você clicar
no botão, aparece uma caixa de diálogo que permite selecionar determinados casos para
executar a operação. Então, se você digitar 'day1 <1', então o SPSS executaria a função de
cálculo apenas para os participantes cuja nota de higiene no dia 1 do festival fosse inferior a 1
(ou seja, se o dia 1 fosse de 0,99 ou menos). Então, podemos usar isso se quisermos olhar
apenas para as pessoas que já estavam cheirosas no primeiro dia do festival.

Menor ou igual a: Esta operação é a mesma que acima, exceto que no exemplo acima, os casos
que são exatamente 1 também serão incluídos.

Mais do que: Esta operação é usada para incluir casos acima de um determinado valor. Então,
se você clicou e digiteu 'day1> 1', então o SPSS realizará qualquer análise apenas nos casos em
que as pontuações de higiene no dia 1 do festival foram maiores que 1 (ou seja, 1.01 e acima).
Isso poderia ser usado para excluir pessoas que já estavam cheirosas no início do festival.
Podemos querer excluí-los porque essas pessoas vão contaminar os dados (para não
mencionar nossas narinas), porque eles relembram a putrefação para começar, de modo que o
festival não possa afetar sua higiene.

Mais ou igual a: Esta operação é a mesma que acima, mas incluirá casos que são exatamente 1
também.

Igual a: Você pode usar esta operação para incluir casos para os quais os participantes têm um
valor específico. Então, se você clicou e digite 'day1 = 1', somente os casos com um valor de
exatamente 1 para a variável day1 estão incluídos. Isso é muito útil quando você possui uma
variável de codificação e você quer ver apenas um dos grupos. Por exemplo, se queríamos
olhar apenas para as mulheres no festival, poderíamos digitar 'gender = 1', e então a análise
seria realizada somente em mulheres (que são codificadas como 1 nos dados).
Não é igual a: Esta operação incluirá todos os casos, exceto aqueles com um valor específico.
Então, 'gender ~ = 1' (como na Figura 5.25) executará o comando de cálculo apenas nos
machos e excluirá as fêmeas (porque eles têm 1 na coluna de gênero).

Algumas das funções mais úteis estão listadas na Tabela 5.2, que mostra a forma padrão da
função, o nome da função, um exemplo de como a função pode ser usada e o que SPSS
emitiria se esse exemplo fosse usado. Existem várias funções básicas para calcular meios,
desvios-padrão e somas de colunas. Existem também funções como a raiz quadrada e o
logaritmo que são úteis para transformar dados que estão distorcidos e usaremos essas
funções agora. Para o leitor interessado, os arquivos de ajuda SPSS têm detalhes de todas as
funções disponíveis através da caixa de diálogo Compute Variable (clique em quando você
estiver na caixa de diálogo).
A transformação de log em SPSS

Vamos usar o computo para transformar nossos dados. Abra a caixa de diálogo principal do
cálculo selecionando. Digite o nome logday1 na caixa denominada Target Variable, clique e dê
a variável um nome mais descritivo, como registros de higiene do Log transformado para o dia
1 do Download Festival. Na caixa de lista denominada Grupo de funções, clique em Aritmética
e, em seguida, na caixa denominada Funções e variáveis especiais, clique em Lg10 (esta é a
transformação de log para base 10; Ln é o log natural) e transfere-a para a área de comando
clicando em. Quando o comando é transferido, ele aparece na área de comando como 'LG10
(?)' E o ponto de interrogação deve ser substituído por um nome de variável (que pode ser
digitado manualmente ou transferido da lista de variáveis). Então, substitua o ponto de
interrogação pela variável day1 selecionando a variável na lista e arrastando-a, clicando ou
simplesmente digitando 'day1' onde o ponto de interrogação é. Para os pontos de higiene do
dia 2, existe um valor de 0 nos dados originais e não há logaritmo do valor 0. Para superar o
problema, adicionamos uma constante aos nossos resultados originais antes de efetuar o
registro dessas pontuações. Qualquer constante fará (embora às vezes possa importar), desde
que torne todas as pontuações maiores que 0. Nesse caso, nossa pontuação mais baixa é 0 nos
dados para que possamos adicionar 1 a todas as pontuações para garantir que todos os
resultados São maiores que zero. Mesmo que esse problema afeta as pontuações do dia 2,
precisamos ser consistentes e fazer o mesmo com as pontuações do dia 1, como faremos com
as pontuações do dia 2. Portanto, certifique-se de que o cursor ainda esteja dentro dos
suportes e clique e depois. A caixa de diálogo final deve ser semelhante à Figura 5.25. Observe
que a expressão lê LG10 (dia1 + 1); Ou seja, o SPSS irá adicionar um a cada um dos pontos do
dia 1 e, em seguida, pegue o log dos valores resultantes. Clique em para criar uma nova
variável logday1 contendo os valores transformados.

A transformação da raiz quadrada no SPSS

Para fazer uma transformação de raiz quadrada, passamos pelo mesmo processo, usando um
nome como sqrtday1 na caixa denominada Variável de destino (e clique em para dar à variável
um nome mais descritivo). Na caixa de lista denominada Grupo de funções, clique em
Aritmética e depois na caixa denominada Funções e Variáveis especiais, clique em Sqrt e
arraste-a para a área de comando ou clique em. Quando o comando é transferido, ele aparece
na área de comando como SQRT (?). Substitua o ponto de interrogação pela variável day1
selecionando a variável na lista e arrastando-a, clicando ou simplesmente digitando 'day1'
onde o ponto de interrogação é. A expressão final irá ler SQRT (dia 1). Clique em para criar a
variável.
A transformação recíproca no SPSS

Para fazer uma transformação recíproca nos dados do dia 1, podemos usar um nome como o
recday1 na caixa denominada Variável de destino. Então, podemos simplesmente clicar e
depois. Normalmente, você selecionaria o nome da variável que deseja transformar da lista e
arraste-o, clique ou simplesmente digite o nome da variável. No entanto, os dados do dia 2
contêm um valor zero e, se tentarmos dividir 1 por 0, receberemos uma mensagem de erro
(você não pode dividir por 0). Precisamos adicionar uma constante à nossa variável, assim
como fizemos para a transformação do log. Qualquer constante fará, mas 1 é um número
conveniente para esses dados. Então, em vez de selecionar a variável que queremos
transformar, clique em; Isso coloca um par de colchetes na caixa denominada Expressão
numérica. Em seguida, assegure-se de que o cursor esteja entre esses dois suportes e
selecione a variável que deseja transformar da lista e transfira-a clicando em (ou digite o nome
da
Variável manualmente). Agora clique e depois (ou digite '+ 1' usando seu teclado). A caixa
denominada Expressão numérica agora deve conter o texto 1 / (dia1 + 1). Clique em para criar
uma nova variável contendo os valores transformados.

O efeito das transformações

A Figura 5.26 mostra as distribuições dos dias 1 e 2 do festival após as três transformações
diferentes. Compare estes para as distribuições não transformadas na Figura 5.13. Agora, você
pode ver que as três transformações limparam os índices de higiene para o dia 2: a inclinação
positiva é reduzida (a transformação da raiz quadrada, em particular, tem sido útil). No
entanto, como nossos resultados de higiene no dia 1 foram mais ou menos simétricos para
começar, eles agora se tornaram ligeiramente negativos para a transformação do tronco e da
raiz quadrada e positivamente inclinados para a transformação recíproca.14 Se estamos
usando pontuações do dia 2 sozinho ou olhando a relação entre o dia 1 e o dia 2, então
poderíamos usar as pontuações transformadas; No entanto, se quisermos ver a mudança de
resultados, teríamos que avaliar se os benefícios da transformação para os escores do dia 2
superam os problemas que ele cria nos resultados do dia 1 - a análise de dados pode ser
frustrante às vezes.

Teste T

Olhando para as diferenças

Até agora, tendemos a focar as relações entre as variáveis; no entanto, às vezes os


pesquisadores estão interessados em analisar as diferenças entre grupos de pessoas.
Em particular, em pesquisas experimentais, muitas vezes queremos manipular o que
acontece com as pessoas para que possamos fazer inferências causais. A forma mais
simples de experiência que pode ser feita é uma com apenas uma variável
independente que é manipulada em apenas duas maneiras e apenas um resultado é
medido. Na maioria das vezes, a manipulação da variável independente envolve ter
uma condição experimental e um grupo de controle (ver Field & Hole, 2003). Alguns
exemplos desse tipo de design são:
1. O filme Scream 2 é mais assustador que o Scream original? Podemos medir as
freqüências cardíacas (que indicam ansiedade) durante os dois filmes e
compará-los.

2. Ouvir a música favorita de Andy enquanto trabalha melhora o seu trabalho?


Você poderia fazer com que algumas pessoas escrevam um ensaio (ou livro)
ouvindo minha música favorita (conforme listado nos Agradecimentos) e, em
seguida, escreva um ensaio diferente ao trabalhar em silêncio (este é um grupo
de controle). Você poderia então comparar as notas do ensaio.

3. As pílulas dietéticas funcionam? Suponhamos que nós levamos dois grupos de


pessoas e alocamos aleatoriamente um grupo de um programa de pílulas
dietéticas e o outro grupo um programa de pílulas de açúcar (que eles
acreditam que irá ajudá-los a perder peso). Se as pessoas que tomam as pílulas
de dieta perderem mais peso do que as que sofrem com as pílulas de açúcar,
podemos inferir que as pastilhas dietéticas causaram a perda de peso.

Manipular a variável independente de forma sistemática é uma poderosa ferramenta


de pesquisa, porque passa um passo além da simples observação de variáveis. Esse
capítulo é o primeiro de muitos que olha esse tipo de cenário de pesquisa e
começamos com o cenário mais simples: quando temos dois grupos, ou, para ser mais
específico, quando queremos comparar dois meios. Como vimos (Capítulo 1), existem
duas formas diferentes de coleta de dados: podemos expor pessoas diferentes a
diferentes manipulações experimentais (entre grupos ou design independente), ou
levar um único grupo de pessoas e expô-las a diferentes experiências manipulações em
diferentes pontos do tempo (um projeto de medidas repetidas ou assuntos internos).
Às vezes, as pessoas estão tentadas a comparar grupos criados artificialmente, por
exemplo, dividindo pessoas em grupos com base em uma pontuação mediana; no
entanto, esta é geralmente uma má idéia (veja Jane Superenerin Box 9.1).

Imagine que existem quatro pessoas: Peter, Birgit, Jip e Kiki. Nós medimos o quanto
eles sabem sobre Star Wars como porcentagem e recebemos Jip (100%), Kiki (60%),
Peter (40%) e Birgit (0%). Se dividimos essas quatro pessoas na mediana (50%), então
estamos dizendo que Jip e Kiki são iguais (eles obtêm uma pontuação de 1 = fanático) e
Peter e Birgit são os mesmos (ambos obtêm uma pontuação de 0 = não é um fanático).
Na realidade, Kiki e Peter são os mais parecidos das quatro pessoas, mas foram
colocados em grupos diferentes. Assim, as divisões medianas mudam a informação
original de forma bastante dramática (Peter e Kiki são originalmente muito
semelhantes, mas se tornam muito diferentes após a divisão, Jip e Kiki são
relativamente diferentes originalmente, mas se tornam idênticos após a divisão).

Os tamanhos de efeitos ficam menores: se você correlacionar duas variáveis contínuas,


o tamanho do efeito será maior que se você correlacionar as mesmas variáveis depois
de uma delas ter sido dicotomizada.
Os tamanhos de efeitos também diminuem em ANOVA e regressão. Existe uma maior
chance de encontrar efeitos espúrios.

Um exemplo: as pessoas invisíveis são maliciosas?

Duas notícias falaram sobre algumas pesquisas de física (Di Falco, Ploschner e Krauss,
2010). Na primeira manchete (novembro de 2010), o Daily Mirror (um jornal do Reino
Unido) informou que "cientistas fizeram o manto invisível de Harry Potter". Eu não sou
realmente um aficionado de Harry Potter, por isso não foi sua menção que chamou
minha atenção, mas a idéia de ser capaz de colocar um manto que me tornaria
invisível e capaz de se submeter a maldades foi realmente muito emocionante. Onde
posso comprar um? Até fevereiro 2011, o mesmo jornal estava relatando uma
pesquisa diferente (Chen, et al., 2011), mas veio com uma manchete ligeiramente mais
calma: "capa de invisibilidade de estilo Harry Potter" construída por cientistas ".

Escusado será dizer que os cientistas realmente não fizeram o manto de invisibilidade
de Harry Potter. Di Falco et al. criou um material flexível (Metaflex) que tinha
propriedades ópticas que significava que, se você colocasse em camadas, você poderia
criar algo em torno do qual a luz se dobraria. Não é exatamente um manto no sentido
da roupa da roupa, mas é mais fácil de usar do que, digamos, uma laje de granito.
Chen et al. também não fez um "manto de invisibilidade" no sentido da roupa, mas
criou um pedaço de invisibilidade de calcita. Isso poderia ocultar pequenos objetos
(centímetros e milímetros de escala): você poderia esconder meu cérebro, mas pouco
mais. No entanto, com um pedaço de calcita adequadamente grande, eu poderia
teoricamente esconder meu corpo inteiro (embora as pessoas possam suspeitar do
bloqueio aparentemente autônomo de calcita anseio em torno da sala em um
carrinho).

Embora os jornais provavelmente tenham exagerado pouco o caso, estas são duas
peças de pesquisa muito emocionantes que trazem a possibilidade de uma capa de
invisibilidade mais próxima de uma realidade. Então, imagino um futuro em que
tenhamos algumas capas de invisibilidade para testar. Como psicólogo (com sua
própria série ligeiramente perniciosa), talvez eu esteja interessado no efeito de que o
uso de um manto de invisibilidade tenha sobre a tendência das pessoas para o mal.
Peguei 24 participantes e os coloquei em uma comunidade fechada. A comunidade
estava cheia de câmeras escondidas para que pudéssemos gravar atos maliciosos. A
metade dos participantes recebeu capas de invisibilidade: foi-lhes dito para não contar
a ninguém sobre o seu manto e podiam usá-lo sempre que quisessem. Nós medimos
quantos atos maliciosos realizaram em uma semana. Esses dados estão na Tabela 9.1.

Saída 9.1 (sua tabela terá mais coisas nele - eu editei as minas para economizar
espaço) mostra algumas estatísticas descritivas para esses dados: observe que outros
atos perniciosos foram realizados por pessoas que tinham um manto de invisibilidade,
M = 5, IC de 95% [3.95, 6.05], SD = 1.65, do que aqueles que não, M = 3.75, IC 95%
[2.53, 4.97], SD = 1.91. Não é que devemos confiar nestes testes (ver Jane Box
Superbrain Box 5.5), mas os escores dos dois grupos são normalmente distribuídos
porque os testes K-S têm valores de significância maiores que 0,05.
Preditores categóricos no modelo linear

Se quisermos comparar as diferenças entre as médias de dois grupos, tudo o que


realmente estamos fazendo é prever um resultado baseado em membros de dois
grupos. Para o nosso exemplo de invisibilidade, estamos prevendo o número de atos
perniciosos de se alguém tinha ou não um manto de invisibilidade. Esta é uma
regressão com um preditor dicotômico. O b para o modelo irá refletir as diferenças
entre os níveis médios de maldade entre os dois grupos, e a prova- t resultante será,
portanto, nos dizer se a diferença entre as médias é diferente de zero (porque,
lembre-se, a prova de t Testa se b = 0).

O astuto entre vocês pode estar pensando 'bs mostram relacionamentos, não
diferenças entre as médias - sobre o que esse engano está acontecendo? Você pode
estar começando a me desconfiar, ou está recarregando o livro de volta em uma caixa
para publicá-lo novamente para obter um reembolso. Eu não o culpo, porque eu
costumava pensar isso também. Para domar uma terra como o complexo, espinhoso,
infestado de ervas daninhas, Andy-comendo e tarântula-mundo habitado de
estatísticas você precisa de uma epifania, e o meu veio na forma de um artigo de
Cohen (1968). Este artigo mostrou-me como, quando comparamos, nós também
estamos usando um modelo linear, que transformou o meu mundo estatístico em um
prado bonito cheio de cordeirinhos balindo todos pulando de alegria na maravilha da
vida.

Lembre-se do Capítulo 2 de que todos os modelos estatísticos são versões mais ou


menos elaboradas deste modelo:

Se quisermos usar um modelo linear, vimos que esta equação geral se torna equação
(8.1) na qual o modelo é definido por parâmetros: b0 nos diz o valor do resultado
quando o preditor é zero e b1 quantifica a relação entre o preditor (Xi) e o resultado
(Yi) (variável critério). Vimos esta equação muitas vezes, mas vamos tornar isso um
pouco mais concreto para o nosso exemplo. Podemos usar esta equação para prever a
variável Travessuras do grupo ao qual uma pessoa pertence (a capa variável):

O problema que temos é que Cloak é uma variável nominal: as pessoas tinham um
"manto" ou "nenhum manto". Não podemos colocar as palavras em um modelo
estatístico, porque ele irá queimar um buraco na camada de ozônio. Em vez disso,
temos que converter essa variável em números - exatamente da mesma maneira que
fazemos quando inserimos as variáveis nominais no SPSS (ver Seção 3.5.2.3). Quando
inserimos as variáveis nominais no SPSS, na verdade não importa quais os números
que escolhemos, mas se vamos colocar os números em um modelo matemático, então
importa o número que escolhemos para representar as categorias de uma variável
nominal. Existem diferentes maneiras de codificar variáveis (que não entraremos aqui);
um deles é usar variáveis falsas (dummy). Examinaremos isso com mais detalhes na
Seção 10.5.1, mas, em essência, significa que codificamos uma categoria de linha de
base com um 0 e outras categorias com um 1. Neste exemplo, existem duas categorias,
nossa categoria de linha de base não é capa (esta é a condição de controle) e,
portanto, atribuímos a esses participantes um 0 para o manto variável, e o grupo
"experimental" é aquele que recebeu um manto e assim nós atribuímos estes a. Na
verdade, esta é a mesma codificação que nós usado no arquivo SPSS. Vamos tapar
esses números no modelo e ver o que acontece.
 
Em primeiro lugar, vamos imaginar que alguém está na condição de
impermeabilização. Qual seria a melhor previsão que poderíamos fazer do número de
atos maliciosos para alguém desse grupo? Nosso melhor palpite seria a média do
grupo (o que é 3,75 na saída 9.1). Então, o valor de Y na equação será o grupo Sem
Capa, e o valor da variável Cloak será 0. Como tal, a equação (9.1) torna-se (se
ignorarmos o termo residual):

Portanto, b0 (o intercepto) é igual à média do grupo de não camuflagem (isto é, é a


média do grupo codificado como 0). Agora vejamos o que acontece quando usamos o
modelo para prever o mal em pessoas que tinham um manto de invisibilidade. Mais
uma vez, o resultado que prevemos para essa pessoa seria o significado do grupo de
capa X Cloak , que era 5 na saída 9.1, e o valor da variável Cloak será 1. Recordando que
acabamos de descobrir que b0 é igual à média do grupo sem camadas (Não Capa), a
equação (9.1) torna-se:

A saída SPSS resultante deve conter a tabela de resumo de regressão mostrada na


saída 9.2. A primeira coisa a notar é o valor da constante (b0): seu valor é 3,75, o
mesmo que a média da categoria base (o grupo de não guarda). A segunda coisa a
notar é que o valor do coeficiente de regressão b1 é 1,25, que é a diferença entre os
dois meios do grupo (5 - 3,75 = 1,25). Finalmente, a estatística t, que testa se b1 é
significativamente diferente de zero, não é significativa porque o valor de significância
é maior que 0,05, o que significa que a diferença entre as médias (1,25) não é
significativamente diferente de 0. Esta seção tem demonstraram que as diferenças
entre as médias podem ser representadas em termos de modelos lineares, e este
conceito é essencial para a compreensão dos seguintes capítulos sobre o modelo linear
geral.

O teste t

Até agora, analisamos como podemos incluir um preditor categórico em nosso modelo
linear para testar as diferenças entre duas médias. Esta abordagem é útil para lhe
mostrar a alegria simplista que é a modelo linear, e manter o segmento de modelos
lineares que atravessam o livro. No entanto, o que acabei de descrever não é
normalmente como as pessoas pensam em comparar médias, e não é como a SPSS
gosta de comparar médias. Isso ocorre porque as pessoas não querem que você
perceba que a maioria dos modelos estatísticos são os mesmos porque isso os tornará
menos inteligentes. A outra razão é que o que acabei de explicar é complicado quando
queremos olhar para projetos de medidas repetidas. Portanto, ao testar a diferença
entre duas médias, as pessoas tendem a pensar no teste t como uma entidade
separada. Nesta seção, analisaremos os fundamentos teóricos do teste. Existem, de
fato, duas t-testes diferentes e o que você usa depende de se a variável independente
foi manipulada usando os mesmos participantes ou diferente:

1. Teste t de amostras independentes: este teste é usado quando existem duas


condições experimentais e diferentes participantes foram atribuídos a cada
condição (isto às vezes é chamado de medição independente ou teste t de
médias independentes).

2. Teste t de amostras pareadas: este teste é usado quando existem duas


condições experimentais e os mesmos participantes participaram em ambas as
condições do experimento (Figura 2.5).

Razão para a prova t


Ambos os testes t têm um raciocínio similar, que é baseado no que aprendemos no
Capítulo 2 sobre o teste de hipóteses:

Duas amostras de dados são coletadas e a amostra é calculada. Essas médias podem
diferir um pouco ou muito.

Se as amostras vierem da mesma população, esperamos que suas médias sejam


aproximadamente iguais (ver Seção 2.5.1). Embora seja possível que suas médias
difiram por acaso, esperamos que grandes diferenças entre as médias da amostra
ocorram com pouca frequência. Sob a hipótese nula, assumimos que a manipulação
experimental não tem efeito sobre os participantes: portanto, esperamos que a
amostra seja muito similar.
 
Nós comparamos a diferença entre a amostra significa que nós coletamos para a
diferença entre a amostra significa que esperamos obter se não houvesse efeito (ou
seja, se a hipótese nula fosse verdadeira). Utilizamos o erro padrão (ver Seção 2.5.1)
como um indicador da variabilidade entre as médias da amostra. Se o erro padrão for
pequeno, esperamos que a maioria das amostras tenham médias muito semelhantes.
Quando o erro padrão é grande, grandes diferenças nas médias da amostra são mais
prováveis. Se a diferença entre as amostras coletadas é maior do que seria de esperar
com base no erro padrão, então podemos assumir uma das duas coisas:

1. Não há efeito e a amostra significa que nossa população flutua muito e, por
acaso, coletamos duas amostras atípicas da população de onde elas vieram.

2. As duas amostras provêm de diferentes populações, mas são típicas da


respectiva população-mãe. Nesse cenário, a diferença entre as amostras
representa uma verdadeira diferença entre as amostras (e, portanto, a
hipótese nula é improvável).

Quanto maior a diferença observada entre a amostra, mais confiante é que a segunda
explicação é correta. Se a hipótese nula for incorreta, ganhamos confiança de que as
duas médias da amostra diferem por causa da manipulação experimental diferente
imposta em cada amostra.

Eu mencionei na Seção 2.6.1.4 que a maioria das estatísticas de teste são uma relação
sinal-ruído: a "variância explicada pelo modelo" dividida pela "variância que o modelo
não pode explicar". Em outras palavras, efeito / erro. Ao comparar dois meios, o
"modelo" que cabemos aos dados (o efeito) é a diferença entre os dois meios de
grupo. Vimos também no Capítulo 2 que significa variar de amostra para amostra
(variação de amostragem) e que podemos usar o erro padrão como medida de quanto
flutuam (ou seja, o erro na estimativa da média). Portanto, também podemos usar o
erro padrão das diferenças entre os dois meios como uma estimativa do erro em nosso
modelo (ou o erro na diferença entre as médias). Portanto, calculamos o teste t da
seguinte maneira:
A metade superior da equação é o "modelo" (nosso modelo é que a diferença entre as
médias é maior que a diferença esperada, que na maioria dos casos será 0 - esperamos
que a diferença entre as médias seja diferente de zero). A metade inferior é o 'erro'.
Assim, como eu disse no Capítulo 2, basicamente estamos obtendo a estatística de
teste dividindo o modelo (ou efeito) pelo erro no modelo. A forma exata que essa
equação leva depende de se os participantes iguais ou diferentes foram utilizados em
cada condição experimental.

A equação do teste t explicada

Vejamos primeiro a situação em que diferentes entidades foram testadas nas


diferentes condições do seu experimento. Esta é uma situação em que o teste t
independente é usado. Se você optar por não pensar sobre o teste t como forma de
regressão, então você pode pensar nisso em termos de duas equações diferentes que
diferem dependendo se as amostras contêm um número igual de pessoas. Podemos
calcular a estatística t usando uma versão numérica da equação (9.2); em outras
palavras, estamos comparando o modelo ou o efeito contra o erro. Quando diferentes
participantes participam de diferentes condições, os pares de pontuações diferirão não
só por causa da manipulação experimental, mas também por outras fontes de
variância (como diferenças individuais entre motivação dos participantes, QI, etc.).
Portanto, fazemos comparações em uma condição por condição (observando o efeito
geral em uma condição):

Observamos as diferenças entre as médias gerais das duas amostras e comparamos as


diferenças que esperamos obter entre as médias das duas populações das quais as
amostras vêm. Se a hipótese nula for verdadeira, as amostras foram retiradas da
mesma população. Portanto, sob a hipótese nula μ1 = μ2 e, portanto, μ1 - μ2 = 0.
Portanto, sob a hipótese nula, a equação torna-se:

Para o teste t independente, estamos a analisar as diferenças entre os grupos, pelo


que dividimos pelo desvio padrão das diferenças entre os grupos. Podemos aplicar a
lógica das distribuições de amostragem para esta situação. Agora, imagine que
tomamos vários pares de amostras - cada par contendo uma amostra das duas
populações diferentes - e comparamos as médias dessas amostras. Pelo que
aprendemos sobre distribuições de amostragem, sabemos que a maioria das amostras
de uma população terá meios bastante semelhantes. Portanto, se tomarmos vários
pares de amostras (de diferentes populações), as diferenças entre as médias da
amostra serão semelhantes em pares. No entanto, muitas vezes a diferença entre um
par de meios de amostra se desviará por uma pequena quantidade e, muito
ocasionalmente, irá se desviar por uma grande quantidade. Se pudéssemos traçar uma
distribuição de amostragem das diferenças entre cada par de meios de amostra que
poderiam ser retirados de duas populações, acharíamos que tinha uma distribuição
normal com uma média igual à diferença entre as médias populacionais (μ1 -μ2). A
distribuição de amostragem nos indicaria quanto podemos esperar que as médias de
duas (ou mais) amostras sejam diferentes. Como antes, o desvio padrão da distribuição
de amostragem (o erro padrão) nos diz como variáveis as diferenças entre as médias
da amostra são por acaso sozinhas. Se o desvio padrão for alto, grandes diferenças
entre as médias da amostra podem ocorrer por acaso; se for pequeno, então apenas
são consideradas pequenas diferenças entre as médias da amostra. Portanto, faz
sentido que usemos o erro padrão da distribuição de amostragem para avaliar se a
diferença entre dois meios de amostra é estatisticamente significativa ou
simplesmente um resultado casual. Especificamente, dividimos a diferença entre as
médias da amostra pelo desvio padrão da distribuição de amostragem. Então, como
obtemos o desvio padrão da distribuição de amostragem das diferenças entre as
médias da amostra? Bem, usamos a lei de soma de variância, que afirma que a
variância de uma diferença entre duas variáveis independentes é igual à soma de suas
variações (ver, por exemplo, Howell, 2012). Esta afirmação significa que a variância da
distribuição de amostragem é igual à soma das variâncias das duas populações das
quais as amostras foram colhidas. Vimos anteriormente que o padrão o erro é o desvio
padrão da distribuição de amostragem de uma população. Podemos usar os desvios
padrão da amostra para calcular o erro padrão da distribuição de amostragem de cada
população:

Portanto, lembrando que a variância é simplesmente o desvio padrão ao quadrado,


podemos calcular a variância de cada distribuição de amostragem:
A lei de soma de variância significa que, para encontrar a variância da distribuição de
amostragem das diferenças, apenas somamos as variâncias das distribuições de
amostragem das duas populações:

Para descobrir o erro padrão da distribuição de amostragem das diferenças,


simplesmente tomamos a raiz quadrada da variância (porque a variância é o desvio
padrão ao quadrado):

Portanto, a equação (9.4) torna-se:

A equação (9.5) é verdadeira somente quando os tamanhos das amostras são iguais.
Muitas vezes, na ciência, não é possível coletar amostras de tamanho igual (porque,
por exemplo, as pessoas podem não completar uma experiência). Quando queremos
comparar dois grupos que contêm diferentes números de participantes, a equação
(9.5) não é apropriada. Em vez disso, utiliza-se o teste t de estimativa de variância
agrupada que leva em consideração a diferença no tamanho da amostra ponderando a
variância de cada amostra. Vimos no Capítulo 1 que grandes amostras são melhores do
que pequenas, porque se aproximam mais da população; portanto, pesamos a
variância pelo tamanho da amostra em que se baseia (nós realmente pesamos pelo
número de graus de liberdade, que é o tamanho da amostra menos 1). Portanto, a
estimativa da variância agrupada é:

Esta é simplesmente uma média ponderada em que cada variância é multiplicada


(ponderada) por seus graus de liberdade, e então dividimos pela soma dos pesos (ou
soma dos dois graus de liberdade). A variância média ponderada resultante é então
apenas substituída na equação do teste t:
Podemos comparar o valor de t obtido em relação ao valor máximo que esperamos
obter se a hipótese nula fosse verdadeira em uma distribuição t com os mesmos graus
de liberdade (esses valores podem ser encontrados no Apêndice); se o valor que
obtem exceda esse valor crítico, podemos ter certeza de que isso reflete um efeito de
nossa variável independente. Uma coisa que deve ser evidente a partir da equação
para t é que, para calcular, você realmente não precisa de dados brutos. Tudo o que
você precisa são as médias, o padrão desvios e tamanhos de amostra (veja SPSS Dica
9.1).

A derivação da estatística t é meramente proporcionar uma compreensão conceitual


do que estamos fazendo quando realizamos uma prova t no SPSS. Portanto, se você
não sabe sobre o que estou falando, então não se preocupe com isso (basta poupar
um pensamento para o meu gato: ele tem que ouvir esse lixo o tempo todo), porque o
SPSS sabe como faça isso e isso é tudo o que importa.
Calculo do teste t independente

Para executar um teste t independente, precisamos acessar a caixa de diálogo principal


selecionando (veja a Figura 9.4). Uma vez que a caixa de diálogo está ativada, selecione
a variável dependente da lista (clique em Malícia) e transfira-a para a caixa
denominada Variável de Teste, arrastando-a ou clicando. Se você quiser realizar T-test
em várias variáveis dependentes, você pode selecionar outras variáveis dependentes e
transferi-las para a lista de variáveis. No entanto, há boas razões pelas quais não é uma
boa idéia realizar muitos testes (ver Seção 2.6.1.7). Em seguida, precisamos selecionar
uma variável independente (a variável de agrupamento). Neste caso, precisamos
selecionar Cloak e depois transferi-lo para a caixa denominada Variável de
agrupamento. Quando sua variável de agrupamento foi selecionada, o botão ficará
ativo e você deve clicar nele para ativar a caixa de diálogo Definir Grupos. SPSS precisa
saber quais códigos numéricos você atribuiu aos seus dois rops, e há um espaço para
você digitar os códigos. Neste exemplo, codificamos o nosso grupo de capas não como
0 e nosso grupo de capas como 1, e esses são os códigos que escrevemos.
Alternativamente, você pode especificar um ponto de corte, caso em que o SPSS
atribuirá todos os casos maiores ou iguais a esse valor para um grupo e todos os
valores abaixo do ponto de corte para o segundo grupo. Esta facilidade é útil se você
estiver testando diferentes grupos de participantes com base em algo como uma
divisão mediana (veja Jane Superbrain Box 9.1) - você simplesmente digitaria o valor
médio na caixa denominada ponto de corte. Quando você definiu os grupos, clique em
para retornar à caixa de diálogo principal. Se você clicar, então aparecerá outra caixa
de diálogo que lhe dará a chance de alterar a largura do intervalo de confiança que é
calculado. A configuração padrão é para um intervalo de confiança de 95% e isso é
bom; no entanto, se você quiser ser mais rigoroso sobre sua análise, você poderia
escolher um intervalo de confiança de 99%, mas você corre o risco de não conseguir
detectar um efeito genuíno (um erro de Tipo II). Você também pode selecionar como
lidar com valores perdidos (veja SPSS Tip 5.1). Para executar a análise, clique na caixa
de diálogo principal.
Saída do teste t independente

A saída do teste t independente contém apenas três tabelas (duas se você não optar
por bootstrapping). A primeira tabela (Saída 9.3) fornece estatísticas de resumo para
as duas condições experimentais (se você não solicitar bootstrapping, esta tabela será
um pouco mais direta). A partir desta tabela, podemos ver que ambos os grupos
tinham 12 participantes (linha rotulada N).

O grupo que não tinha capa, em média, realizou 3,75 atos maliciosos com um desvio
padrão de 1,913. Além disso, o erro padrão desse grupo é 0.552 (SE = 1.913 / √12 =
1.913 / 3.464 = 0.552). A estimativa SE do bootstrap é 0,53 e o intervalo de confiança
inicializado para a média varia de 2,92 a 4,58.

Aqueles que receberam um manto de invisibilidade realizaram, em média, 5 atos, com


um desvio padrão de 1.651, um erro padrão de 0.477 (SE = 1.651 / √12 = 1.651 / 3.464
= 0.477). O erro padrão do bootstrap é um pouco menor em 0,46 e o intervalo de
confiança para a média varia de 4,33 a 5,67. Observe que os intervalos de confiança
para os dois grupos se sobrepõem, o que implica que eles podem ser da mesma
população.

A segunda tabela de saída (Saída 9.4) contém as principais estatísticas de teste. A


primeira coisa a notar é que existem duas linhas contendo valores para as estatísticas
de teste: uma linha é rotada de variâncias iguais assumidas, enquanto a outra é
rotulada variâncias iguais não assumidas. No capítulo 5, vimos que os testes
paramétricos assumem que as variações nos grupos experimentais são
aproximadamente iguais. Nós também vimos em Jane Superbrain Box 5.6 que há
ajustes que podem ser feitos em situações em que as variações não são iguais. As
linhas da tabela referem-se a se essa suposição foi ou não quebrada.

Vimos na Seção 5.3.3 que podemos usar o teste de Levene para ver se as variações são
diferentes em diferentes grupos, e SPSS produz esse teste para nós. Lembre-se de que
o teste de Levene é semelhante a um teste t em que ele testa a hipótese de que as
variações nos dois grupos são iguais (ou seja, a diferença entre as variâncias é zero).
Portanto, se o teste de Levene é significativo em p ≤ .05, sugere que a suposição de
homogeneidade de variâncias tenha sido violada. Se, no entanto, o teste de Levene
não é significativo (ou seja, p> 0,05), então podemos assumir que as variações são
aproximadamente iguais e a suposição é sustentável. Para esses dados, o teste de
Levene não é significativo (porque p = .468, que é maior que 0,05) e, portanto,
devemos ler as estatísticas de teste na linha denominada Variações iguais assumidas.
Se o teste de Levene tivesse sido significativo, então teríamos lido as estatísticas de
teste da linha rotada de variâncias iguais não assumidas.

Tendo estabelecido que a suposição de homogeneidade das variações é cumprida,


podemos observar o próprio T-test. Dizem-se a diferença média (No Cloak, - Cloak, =
3,75 - 5 = -1,25) e o erro padrão da distribuição amostral das diferenças, que é
calculado usando a metade inferior da equação (9,5):
A estatística t é calculada dividindo a diferença média pelo erro padrão da distribuição
amostral de diferenças (t = -1,25 / 0,730 = -1,71). O valor de t é então avaliado em
relação ao valor de t que você pode esperar obter se não houver efeito na população
quando você tiver certos graus de liberdade. Para o teste t independente, os graus de
liberdade são calculados adicionando os dois tamanhos de amostra e subtraindo o
número de amostras (df = N1 + N2 - 2 = 12 + 12 - 2 = 22). SPSS produz o valor de
significância exato de t, e estamos interessados em saber se esse valor é menor ou
igual a .05. Neste caso, o valor de duas colisões de p é .101, que é maior que 0,05 e,
portanto, teríamos que concluir que não houve diferença significativa entre as médias
dessas duas amostras. Em termos de experiência, podemos inferir que ter um manto
de invisibilidade não afetou significativamente a quantidade de prejuízo que uma
pessoa conseguiu. Observe que o valor de t e o valor de significância são os mesmos
que quando realizamos o mesmo teste como uma regressão (ver Saída 9.2) .3 Algumas
pessoas usam uma probabilidade de unilateral quando fizeram uma previsão específica
(por exemplo, se eles previram que ter um manto de invisibilidade levaria a mais
travessuras). Podemos obter essa probabilidade mergulhando a probabilidade de duas
caudas em 2, o que neste caso é .101 / 2 = .0505 (que ainda não é significativo). No
entanto, não recomendo que você faça isso por razões descritas na Seção 2.6.1.5.

A saída 9.5 mostra os resultados do bootstrapping (se você selecionou). Você pode ver
que o procedimento de inicialização foi aplicado para reavaliar o erro padrão da
diferença média (que é estimado como .726 em vez de .730, o valor na saída 9.4). SPSS
também calcula um intervalo de confiança bootstrapped para a diferença entre as
médias são computados. A diferença entre as médias é -1,25 e o intervalo de confiança
varia de -2,606 a 0,043. O intervalo de confiança implica que a diferença entre as
médias na população pode ser negativa, positiva ou mesmo zero (porque o intervalo
varia de um valor negativo para um positivo). Em outras palavras, é possível que a
verdadeira diferença entre as médias seja zero - nenhuma diferença. Portanto, este
intervalo de confiança bootstrap confirma nossa conclusão de que ter um manto de
invisibilidade parece não afetar atos de malícia.
Cálculo do tamanho do efeito

Mesmo que nossa estatística t não seja estatisticamente significativa, isso não significa
necessariamente que nosso efeito não seja importante em termos práticos. Para
descobrir se o efeito é substancial, podemos calcular os tamanhos de efeito (ver Seção
2.7.1). A conversão de um valor t em um valor r é bastante fácil; podemos usar a
seguinte equação (por exemplo, Rosenthal, 1991; Rosnow & Rosenthal, 2005):

Conhecemos o valor de t e o df da saída SPSS e, assim, podemos calcular r da seguinte


maneira:

Se você pensa de volta aos nossos benchmarks para tamanhos de efeito, isso
representa um efeito médio (é em torno de .3, o limite para um efeito médio).
Portanto, apesar de o efeito não ser significativo, ele ainda representava um efeito
bastante substancial. Poderíamos, em vez disso, calcular o d de Cohen (Seção 2.7.1.1),
usando os dois meios (5 e 3.75) e o desvio padrão do grupo de controle (sem manto):

Isso significa que há 0,65 de uma diferença de desvio padrão entre os dois grupos em
termos de fazer mal, o que novamente é um efeito bastante substancial.

Relatando o teste t independente

Como já vimos antes, existe uma maneira bastante padrão de relatar qualquer
estatística de teste: geralmente você declara o achado ao qual o teste se relaciona e
depois reporta a estatística de teste, seus graus de liberdade e o valor de
probabilidade dessa estatística de teste. Uma estimativa do tamanho do efeito
também deve ser relatada. A saída SPSS nos diz que o valor de t foi -1,71; que o
número de graus de liberdade em que se baseou foi 22; e que não foi significativo, p =
0,101. Também podemos ver as médias para cada grupo. Nós
poderia escrever isso como:
Em média, os participantes receberam um manto de invisibilidade envolvido
em mais atos de maldade (M = 5, SE = 0,48), do que aqueles que não
receberam um manto (M = 3,75, SE = 0,55). Esta diferença, -1,25, BCa 95% CI [-
2,606, 0,043], não foi significante t (22) = -1,71, p = 0,101; no entanto,
representou um efeito de tamanho médio, d = 0,65.

Observe como relatamos as médias em cada grupo (e erros padrão), a diferença média
e seu intervalo de confiança bootstrapped, e a estatística de teste, seus graus de
liberdade e valor p. Tente evitar escrever coisas vagas e infundadas como esta:

1. As pessoas não eram mais maliciosas (t = -1,71).

Mais malicioso do que o que? Onde estão os df? O resultado foi estatisticamente
significativo? O efeito foi importante (qual foi o tamanho do efeito)?

Inserção de dados

Imaginemos que tínhamos coletado o manto de dados de invisibilidade usando um


projeto de medidas repetidas; isso não é porque eu sou preguiçoso para pensar um
conjunto de dados diferente, mas porque me permite ilustrar várias coisas. Então, os
dados serão idênticos. Nesse cenário, talvez tenhamos gravado o nível natural de atos
perniciosos de cada uma em uma semana, depois lhes damos um manto de
invisibilidade e contado o número de atos perniciosos na semana que vem.

Os dados agora seriam organizados de forma diferente no SPSS. Em vez de ter uma
variável de codificação e uma única coluna com pontuação de malhas, organizaremos
os dados em duas colunas (uma representando a condição de Capa e outra
representando a condição No_Cloak). Os dados estão em Invisibility RM.sav se você
teve dificuldade em entrar no SPSS você mesmo.

Explorando dados e testando pressupostos

Nós falamos sobre a suposição de normalidade no Capítulo 5 e descobrimos que os


testes paramétricos (como o teste t de amostras pareadas) assumem que a
distribuição da amostragem é normal. Isso deve ser verdade em grandes amostras,
mas em pequenas amostras, as pessoas frequentemente verificam a normalidade de
seus dados porque, se os próprios dados são normais, a distribuição de amostragem
provavelmente também será. Com o teste de amostras pareadas, analisamos as
diferenças entre os escores porque estamos interessados na distribuição de
amostragem dessas diferenças (e não nos dados brutos). Portanto, se você quiser
testar a normalidade antes de uma amostra de amostras pareadas, o que você deve
fazer é calcular as diferenças entre os escores e, em seguida, verificar se essa nova
variável é normalmente distribuída (ou usar uma grande amostra e não se preocupar
com a normalidade). É possível ter duas medidas altamente não-normais e produzir
diferenças lindamente distribuídas.

Um problema com gráficos de barras de erro de projetos de medidas repetidas

Vimos no Capítulo 4 que é importante visualizar diferenças de grupo usando barras de


erro. Agora vamos examinar um problema que ocorre quando representamos barras
de erro de medidas repetidas.

Em uma das auto-testes anteriores, pedi-lhe que produza um gráfico de barras de erro
para os dados quando o tratamos como um design independente, e agora produzimos
um de um design de medidas repetidas. A Figura 9.5 mostra esses gráficos; lembre-se
de que os dados são exatamente os mesmos, tudo isso mudou é se fingimos o design
usado pelos mesmos participantes (medidas repetidas) ou diferentes (independentes).
Agora, descobrimos no Capítulo 1 que os projetos de medidas repetidas eliminam
algumas variáveis estranhas (como idade, IQ e assim por diante) e, assim, podem nos
dar mais sensibilidade nos dados. Portanto, esperamos que nossos gráficos sejam
diferentes: o gráfico de medidas repetidas deve refletir a sensibilidade aumentada no
projeto. Olhando para os dois gráficos de barras de erro, você pode detectar essa
diferença entre os gráficos?

Esperemos que sua resposta seja "não" porque, é claro, os gráficos são idênticos. Essa
semelhança reflete o fato de que quando você cria um gráfico de barras de erros de
dados de medidas repetidas, o SPSS trata os dados como se diferentes grupos de
participantes fossem usados. Em outras palavras, as barras de erro não refletem o erro
"verdadeiro" em torno das médias para projetos de medidas repetidas. Podemos
corrigir este problema manualmente. É um pouco de faff, mas é isso que vamos
descobrir agora.

Dois gráficos de barras de erro dos dados de invisibilidade. Os dados à esquerda são
tratados como se fossem participantes diferentes, enquanto aqueles à direita são
tratados como se fossem dos mesmos participantes
Computação do teste t de amostras pareadas

Para realizar um teste t de amostras pareadas, precisamos acessar a caixa de diálogo


principal selecionando (Figura 9.11). Uma vez que a caixa de diálogo está ativada, você
precisa selecionar pares de variáveis a serem analisadas. Neste caso, temos apenas um
par (Cloak vs. No_Cloak). Para selecionar um par, você deve clicar na primeira variável
que deseja selecionar (neste caso, No_Cloak), então mantenha pressionada a tecla Ctrl
(Cmd em um Mac) e selecione a segunda (neste caso Capa). Para transferir essas duas
variáveis para a caixa denominada Variáveis emparelhadas, clique em. (Você também
pode selecionar cada variável individualmente e transferi-la clicando em, mas
selecionar ambas as variáveis, como acabamos de descrever, é mais rápido.) Se você
quer realizar várias t-testes, então você pode selecionar outro par de variáveis,
transferi-las para as variáveis lista, selecione outro par e assim por diante. Se você
clicar em seguida, aparecerá outra caixa de diálogo que lhe dará as mesmas opções
que para a prova t independente. Da mesma forma, você pode clicar para acessar a
função bootstrap (Seção 5.4.3). Tal como acontece com o teste t independente,
selecione e. De volta à caixa de diálogo principal, clique em para executar a análise.

Saída do teste t de amostras pareadas

O resultado resultante produz quatro tabelas (três se você não selecionar


bootstrapping). A Saída 9.6 mostra uma tabela de estatísticas resumidas para as duas
condições experimentais (se você não solicitar bootstrapping, esta tabela será um
pouco mais direta). Para cada condição, somos informados da média, do número de
participantes (N), do desvio padrão e do erro padrão. Esses valores são os mesmos que
quando tratamos os dados como um projeto independente e foram descritos na Seção
9.5.4.

A saída 9.6 também mostra a correlação de Pearson entre as duas condições. Quando
são utilizadas medidas repetidas, é possível que as condições experimentais se
correlacionem (porque os dados em cada condição provêm das mesmas pessoas e,
portanto, pode haver alguma constância nas suas respostas). O SPSS fornece o valor da
r de Pearson e do valor de significância de duas colunas (ver Capítulo 7). Para esses
dados, as condições experimentais produzem um coeficiente de correlação muito
grande, r = 0,806, o que é altamente significativo, p = 0,002 e tem um intervalo de
confiança de inicialização que não inclui zero, BCa IC 95% [0,185, 0,965].

A saída 9.7 mostra-nos se a diferença entre as médias das duas condições foi grande o
suficiente para não ser um resultado casual. Primeiro, a tabela nos diz a diferença
média entre os escores médios de cada condição: 3,75 - 5 = -1,25 (esse valor está na
equação (9,8)). A tabela também relata o desvio padrão das diferenças entre as médias
e, mais importante, o erro padrão das diferenças entre as pontuações dos
participantes em cada condição. A estatística de teste, t, é calculada dividindo a média
das diferenças pelo erro padrão de diferenças (ver equação (9.8): t = -1.25 / 0.329 = -
3.804). O tamanho de t é comparado com valores conhecidos com base nos graus de
liberdade. Quando os mesmos participantes foram utilizados, os graus de liberdade
são o tamanho da amostra menos 1 (df = N - 1 = 11). O SPSS usa os graus de liberdade
para calcular a probabilidade exata de que um valor de t tão grande como o obtido
poderia ocorrer se não houvesse diferença entre a população. Esse valor de
probabilidade está na coluna com sigla Sig. SPSS fornece a probabilidade de duas
caudas, que é a probabilidade quando nenhuma previsão foi feita sobre a direção das
diferenças de grupo e a que eu recomendo usar (ver Seção 2.6.1.5). A probabilidade de
duas caudas para os dados de invisibilidade é muito baixa (p = 0,003); Isso nos diz que
existe apenas uma chance de 0,3% de que um valor de t pelo menos esse grande
poderia ocorrer se a hipótese nula fosse verdadeira. Estamos interessados em saber se
esse valor é inferior ou superior a .05, e porque o valor de p é inferior a .05, podemos
concluir que houve uma diferença significativa entre as médias dessas duas amostras.
Em termos do experimento, podemos inferir que ter um manto de invisibilidade afetou
significativamente a quantidade de maldade que uma pessoa conseguiu, t (11) = -3.80,
p = .003. Esse resultado foi previsto pelo gráfico de barras de erro na Figura 9.10.

Finalmente, esta saída fornece um intervalo de confiança de 95% para a diferença de


média.6 No entanto, um intervalo de confiança mais robusto, estimado usando
bootstrapping, é produzido na Saída 9.8. Lembre-se que os intervalos de confiança são
construídos de tal forma que, em 95% das amostras, os intervalos contêm o valor
verdadeiro da diferença média. Então, assumindo que o intervalo de confiança dessa
amostra é um dos 95 de 100 que contém o valor da população, podemos dizer que a
verdadeira diferença média está entre -1,67 e -0,83. A importância deste intervalo é
que ele não contém zero (ambos os limites são negativos), o que nos diz que o valor
verdadeiro da diferença média é improvável de ser zero. Em outras palavras, há um
efeito na população que reflete atos mais maliciosos realizados quando alguém recebe
um manto de invisibilidade.
Cálculo do tamanho do efeito

De acordo com Rosenthal (1991), podemos calcular o tamanho do efeito diretamente


do valor de t, assim como fizemos para o teste t independente. Nesse caso, nós
tomamos o valor de t e o df da saída SPSS e calculamos r como:

Esse valor representa um efeito muito grande (está acima de .5, o limite para um
grande efeito). Portanto, além de ser estatisticamente significativo, esse efeito é uma
descoberta substantiva. Você pode notar que o efeito cresceu: era .34 quando
tratamos os dados como se fosse de um design independente. Esse crescimento no
tamanho do efeito pode parecer um pouco estranho, dado que usamos exatamente os
mesmos dados (mas veja a Seção 9.7). Dunlap, Cortina, Vaslow e Burke (1996)
concordariam e mostraram que o uso de um t de um teste t de amostras pareadas leva
a uma verestima do tamanho do efeito populacional (embora eles discutissem d em
vez de r). Você poderia, em vez disso, calcular o d de Cohen (Seção 2.7.1.1) como
fizemos na Seção 9.5.5:

Observe que a mudança no design não afeta o cálculo; portanto, o tamanho do efeito
não muda como resultado do tipo de projeto usado e podemos interpretá-lo como
antes. A este respeito, pode ser preferível r.

Relatando o teste t de amostras pareadas

Podemos basicamente reportar a mesma informação para o teste t de amostras


pareadas quanto ao teste t independente, mas obviamente os intervalos de confiança,
graus de liberdade e valores de t e p mudaram:
Em média, os participantes receberam um manto de invisibilidade envolvido em mais
atos de maldade (M = 5, SE = 0,48), do que aqueles que não receberam um manto (M
= 3,75, SE = 0,55). Essa diferença, -1,25, BCa IC a 95% [-1,67, -0,83], foi significante t
(11) = -3,80, p = 0,003 e representou um efeito médio, d = 0,65.

Entre grupos ou medidas repetidas?

Os dois exemplos neste capítulo são interessantes (honestamente!) Porque ilustram a


diferença entre dados coletados usando os mesmos participantes e dados coletados
usando diferentes participantes. Os dois exemplos neste capítulo usam as mesmas
pontuações em cada condição. Quando analisado como se os dados fossem
provenientes dos mesmos participantes, o resultado era uma diferença significativa
entre as médias, mas quando analisados como se os dados provenham de diferentes
participantes, não houve diferença significativa entre as médias do grupo. Isso pode
parecer uma descoberta desconcertante - afinal, os números eram idênticos em
ambos os exemplos. O tamanho do efeito (d) não mudou, refletindo o fato de que os
dados eram os mesmos e O efeito foi o mesmo, tudo o que mudou foi o significado
desse efeito. Este exemplo ilustra o poder relativo de projetos de medidas repetidas.
Quando os mesmos participantes são usados em todas as condições, a variância não
sistemática (frequentemente chamada de variação de erro) é reduzida
dramaticamente, facilitando a detecção de qualquer variância sistemática. Muitas
vezes, é suposto que a forma como você coleciona dados é irrelevante e, em termos
de tamanho de efeito, é certo, mas se você está interessado em significar, isso importa
um pouco. Os pesquisadores realizaram estudos usando os mesmos participantes em
condições experimentais, depois replicaram o estudo usando diferentes participantes
e usaram o método de coleta de dados como uma variável independente na análise.
Tipicamente, eles descobriram que o método de coleta de dados interage
significativamente com os resultados encontrados (ver Erlebacher, 1977).

E se eu violar os pressupostos do teste?

No capítulo 5, analisamos várias fontes de viés e como corrigi-las. No caso de comparar


dois meios, há ajustes que podem ser feitos para o teste t quando a suposição de
homogeneidade de variância é quebrada e se outros pressupostos estão quebrados,
encontramos outros testes que comparam dois grupos e fazem menos suposições :
teste Wilcoxon de classificação assinada (Seção 6.5), teste de soma de classificação de
Wilcoxon e teste de Mann-Whitney (Seção 6.4). No entanto, eu não usaria esses
testes: eu tomaria as medidas usuais para reduzir o impacto de outliers óbvias e usar o
intervalo de confiança bootstrapped para a diferença de média. Esse intervalo de
confiança deve ser robusto para as fontes de viés que discutimos no livro.
O que é ANCOVA?
Quando usar ANCOVA

No capítulo anterior, vimos como a ANOVA unidirecional poderia ser caracterizada em


termos de uma equação de regressão múltipla que usava variáveis Dummy para
codificar a associação do grupo. Além disso, no Capítulo 8 vimos como a regressão
múltipla poderia incorporar várias variáveis de preditores contínuos. Portanto, não
deve ser de admirar que a equação de regressão para ANOVA possa ser estendida para
incluir uma ou mais variáveis contínuas que predizem o resultado (ou variável
dependente).

Variáveis contínuas como essas, que não fazem parte da manipulação experimental
principal, mas que influenciam a variável dependente, são conhecidas como
covariáveis e podem ser incluídas em uma análise ANOVA. Quando medimos
covariáveis e as incluímos em uma análise de variância, chamamos análise de
covariância (ou ANCOVA para breve). Este capítulo enfoca essa técnica.

No capítulo anterior, usamos um exemplo sobre como analisar os efeitos do Viagra na


libido. Pensemos em coisas que não sejam o Viagra que possam influenciar a libido:
bem, o óbvio é a libido do parceiro sexual do participante (depois de tudo "é preciso
dois para o tango"!), mas também há outras coisas como outras medicações que
suprimem libido (como antidepressivos ou a pílula anticoncepcional) e fadiga. Se essas
variáveis (as covariáveis) forem medidas, então é possível controlar a influência que
elas têm na variável dependente ao incluí-las no modelo de regressão. A partir do que
conhecemos de regressão hierárquica (ver Capítulo 8), deve ficar claro que, se
inserimos a covariável no modelo de regressão primeiro, e depois inserir as variáveis
falsas que representam a manipulação experimental, podemos ver o efeito que uma
variável independente tem após a efeito da covariável. Como tal, fazemos parte do
efeito da covariável. Aqui estão dois motivos para incluir covariáveis na ANOVA:

1. Para reduzir a variância de erro dentro do grupo: na discussão de ANOVA e T-


test, nos acostumamos com a idéia de que avaliamos o efeito de um
experimento comparando a quantidade de variabilidade nos dados que o
experimento pode explicar contra a variabilidade que ele não consegue
explicar. Se pudermos explicar algumas dessas variações "inexplicadas" (SSR)
em termos de outras variáveis (covariáveis), reduzimos a variância do erro,
permitindo-nos avaliar com maior precisão o efeito da variável independente
(SSM).

2. Eliminação de Confusões: em qualquer experiência, pode haver variáveis não


medidas que confundam os resultados (ou seja, variáveis diferentes da
manipulação experimental que afetam a variável de resultado). Se se sabe que
qualquer variável influencia a variável dependente medida, então ANCOVA é
ideal para remover a polarização dessas variáveis. Uma vez que uma possível
variável de confusão foi identificada, ela pode ser medida e inserida na
análise como covariável.
Existem outras razões para incluir covariáveis na ANOVA, mas porque não pretendo
descrever o cálculo do ANCOVA em qualquer detalhe, recomendo que o leitor
interessado consulte minhas fontes favoritas sobre o tema (Stevens, 2002; Wildt &
Ahtola, 1978).

Como tal, podemos pensar em comparar as médias de diferentes grupos em termos de


um modelo linear (ver Seção 11.2.1.) Em que os grupos são codificados como as
variáveis falsas Alto e Baixo: Alto leva o valor de 1 apenas para o alto grupo e Baixo
tem um valor de 1 apenas para o grupo baixo, em todas as outras situações eles têm
um valor de 0. Podemos pensar em ANCOVA como uma extensão deste modelo em
que uma covariável é adicionada como um preditor ao modelo. Este modelo irá testar
a diferença entre as médias do grupo ajustados para a covariável. Vejamos esta ideia
com um exemplo prático; embora você normalmente não faça ANCOVA usando no
menu de regressão no SPSS, executar a análise dessa maneira nos ajudará a entender
o que está acontecendo conceitualmente.
O resumo do modelo de regressão resultante da auto-teste (Saída 12.1) mostra-nos a
bondade de ajuste do modelo primeiro quando apenas a covariável é usada no modelo
e, em segundo lugar, quando são utilizadas as variáveis covariável e as fictícias.
Portanto, a diferença entre os valores de R2 (.288 -.061 = .227) representa a
contribuição individual da dose de Viagra. Podemos dizer que a dose de Viagra
representou 22,7% da variação na libido, enquanto a libido do parceiro representou
apenas 6,1%. Esta informação adicional fornece alguma visão sobre a importância
substancial do Viagra. A próxima tabela é a tabela ANOVA, que é novamente dividida
em duas seções. A metade superior representa o efeito da covariável sozinha,
enquanto a metade inferior representa todo o modelo (isto é, covariante e a dose de
Viagra incluída). Observe na parte inferior da tabela ANOVA (o bit para o Modelo 2)
que o modelo inteiro (libido do parceiro e as variáveis dummy) são responsáveis por
31,92 unidades de variância (SSM), há 110,97 unidades no total (SST) e a variância
inexplicada (SSR) é 79,05.
A tabela de coeficientes de regressão (saída 12.2) é a parte interessante da saída.
Novamente, esta tabela é dividida em dois: a metade superior mostra o efeito quando
apenas a covariável está no modelo e a metade inferior contém o modelo inteiro. Os
valores b para as variáveis dummy representam a diferença entre as médias do grupo
de baixa dose e o grupo placebo (Low_Placebo) e entre o grupo de dose alta e o grupo
placebo (High_Placebo) - ver Seção 11.2.1 para uma explicação. As médias dos grupos
de doses baixas e altas foram 4,88 e 4,85, respectivamente, e a média do grupo
placebo foi de 3,22. Portanto, os valores b para as duas variáveis dummy devem ser
aproximadamente iguais (4.88 - 3.22 = 1.66 para Low_Placebo e 4.85 - 3.22 = 1.63 para
High_Placebo). O astuto entre você pode notar a partir do resultado SPSS que, de fato,
os valores b não são apenas muito diferentes uns dos outros (o que não deve ser o
caso porque os grupos de doses altas e baixas significam praticamente o mesmo), mas
também diferente dos valores que acabei de calcular. Isso significa que eu estive
mentindo para você nas últimas 50 páginas sobre o que os valores beta representam?
Bem, mesmo não sou tão horrível; o motivo dessa anomalia aparente é que os valores
b nesta regressão representam as diferenças entre as médias de cada grupo e o
placebo quando essas médias foram ajustadas para a libido do parceiro. Estas médias
ajustadas vêm diretamente do modelo. Se substituirmos os valores b na equação
(12.1) pelos valores na saída 12.2, nosso modelo se torna:

Para o grupo de baixa dose, a variável dummy Low é 1 e High é 0, então a média
ajustada é:
Para o grupo de doses elevadas, a variável dummy Low é 0 e High é 1, então a média
ajustada é:

Agora podemos ver que os valores b para as duas variáveis simuladas representam as
diferenças entre esses meios ajustados (4.71-2.93 = 1.78 para Low_Placebo e 5.15-2.93
= 2.22 para High_Placebo). Estas médias ajustadas são a quantidade média de libido
para cada grupo no nível médio da libido do parceiro. É por isso que algumas pessoas
pensam em ANCOVA como "controlando" a covariável, porque compara o grupo
previsto para o valor médio da covariável, de modo que os grupos estão sendo
comparados a um nível da covariável que é o mesmo para cada grupo. No entanto,
como veremos, a analogia do "controle pela covariável" não é boa. Para reiterar, você
geralmente não administra ANCOVA através dos menus de regressão do SPSS (mas
veja SPSS Dica 12.1); eu fiz isso aqui para ilustrar que ANCOVA é simplesmente um
modelo de regressão como todos os outros que encontramos neste livro. Não é
assustador ou complicado, é o mesmo modelo que usamos inúmeras vezes antes.

Pressupostos e problemas em ANCOVA


ANCOVA é um modelo linear e, portanto, todas as fontes de viés potencial (e medidas
contrárias) discutidas no Capítulo 5 se aplicam. No entanto, existem duas importantes
considerações adicionais:
1. Independência da covariável e efeito de tratamento; e
2. Homogeneidade das inclinações de regressão.

Independência do covariável e efeito de tratamento

Eu disse na seção anterior que um uso do ANCOVA é reduzir variância de erro dentro
do grupo, permitindo que a covariável explique algumas dessas variâncias de erro. No
entanto, para que isso seja verdade, a covariável deve ser independente do efeito
experimental. A Figura 12.2 mostra três cenários diferentes:

A Parte A mostra uma ANOVA básica e é semelhante à Figura 11.4; isso mostra que
o efeito experimental (no nosso exemplo de libido) pode ser dividido em duas partes
que representam o efeito experimental ou de tratamento (neste caso, a
administração de Viagra) e o erro ou variância inexplicada (ou seja, fatores que
afetam a libido que não temos 't medido).

A Parte B mostra o cenário ideal para o ANCOVA em que a covariável compartilha


sua variação apenas com o pouco de libido atualmente inexplicável. Em outras
palavras, é completamente independente do efeito do tratamento (não se sobrepõe
com o efeito do Viagra). Este cenário é o único em que o ANCOVA é apropriado.
A Parte C mostra uma situação em que as pessoas frequentemente usam ANCOVA
quando não devem. Nesta situação, o efeito da covariável se sobrepõe com o efeito
experimental. Em outras palavras, o efeito experimental é confundido com o efeito
da covariável. Nesta situação, a covariável reduzirá (estatisticamente falando) o
efeito experimental porque explica alguma variância que seria atribuível ao
experimento.

Quando o efeito covariável e o efeito experimental (variável independente) não são


independentes, o efeito do tratamento é obscurecido, podem ocorrer efeitos de
tratamento espúrios e, pelo menos, a interpretação do ANCOVA está seriamente
comprometida (Wildt & Ahtola, 1978).

O problema da covariável e a variação da partilha de tratamento é comum e é


ignorado ou mal interpretado por muitas pessoas (Miller & Chapman, 2001). Miller e
Chapman não são as únicas pessoas a apontar isso, mas seu artigo é muito legível e
eles citam muitos exemplos de pessoas que estão fazendo um pedido incorreto de
ANCOVA. O seu ponto principal é que quando os grupos de tratamento diferem na
covariável, colocar a covariável na análise não "controlará" ou "equilibrará" essas
diferenças (Lord, 1967, 1969). Esta situação ocorre principalmente quando os
participantes não são aleatoriamente designados para condições experimentais de
tratamento. Por exemplo, ansiedade e depressão estão intimamente correlacionadas
(pessoas ansiosas tendem a estar deprimidas), então, se você quisesse comparar um
grupo de pessoas ansioso contra um grupo não ansioso em alguma tarefa, as chances
são de que o grupo ansioso também seria mais deprimido do que o grupo não-
desejado. Você pode pensar que ao adicionar a depressão como uma covariável na
análise, você pode observar o efeito "puro" da ansiedade, mas você não pode. Esta
seria a situação na parte C da Figura 12.2: o efeito da covariável (depressão) conteria
alguma variância do efeito da ansiedade. Estatisticamente falando, tudo o que
sabemos é que a ansiedade e a depressão compartilham a variância; não podemos
separar esta variância compartilhada em "variância da ansiedade" e "variância da
depressão", ela sempre será "compartilhada". Outro exemplo comum é se você achar
que seus grupos experimentais diferem em suas idades. Colocar a idade na análise
como covariável não resolverá esse problema - ainda é confundido com a manipulação
experimental. O ANCOVA não é uma solução mágica para este problema (ver Jane
Superbrain Box 12.1).

Esse problema pode ser evitado através de randomização de participantes para grupos
experimentais, ou pela correspondência de grupos experimentais na covariável (no
nosso exemplo de ansiedade, você poderia tentar encontrar participantes para o grupo
de baixa ansiedade que apresentou alto índice de depressão). Podemos verificar se
esse problema provavelmente será um problema, verificando se os grupos
experimentais diferem na covariável antes de executar o ANCOVA. Para usar o nosso
exemplo de ansiedade novamente, podemos testar se nossos grupos de alta e baixa
ansiedade diferem nos níveis de depressão (com teste t ou ANOVA). Se os grupos
não diferem significativamente, então podemos usar a depressão como covariável.

Jane Superbrain - Um requisito interpretativo ou estatístico?

O efeito do tratamento e a covariável são simplesmente variáveis preditoras em um


modelo linear geral, no entanto, apesar de várias centenas de páginas que discutem
modelos lineares, não mencionei que os preditores devem ser completamente
independentes. Eu disse que eles não deveriam se sobrepor demais (por exemplo,
colinearidade), mas isso é bastante diferente do que dizer que eles não deveriam se
sobrepor em tudo. Se, em geral, não nos interessamos que os preditores sejam
independentes em modelos lineares, por que devemos cuidar agora? A resposta curta
é que não - não há requisitos estatísticos para que a variável de tratamento e a
covariável sejam independentes.

No entanto, existem situações em que o ANCOVA pode ser tendenciosa quando a


covariável não é independente da variável de tratamento. Uma situação, comum na
pesquisa médica, tem sido muito discutida: um resultado (por exemplo, hipertensão) é
medido na linha de base e após uma intervenção de tratamento (com participantes
atribuídos a um grupo de tratamento ou controle). Este projeto pode ser analisado
usando uma ANCOVA em que os efeitos do tratamento sobre a hipertensão pós-
intervenção são analisados enquanto covaria os níveis basais de hipertensão arterial.
Neste cenário, a independência do tratamento e as variáveis covariáveis significam que
os níveis basais de hipertensão são iguais nos diferentes grupos de tratamento. De
acordo com Senn (2006), a idéia de que o ANCOVA é tendenciosa, a menos que os
grupos de tratamento sejam iguais na covariável, aplica-se apenas quando há
aditividade temporal. Para usar o nosso exemplo de hipertensão, a aditividade
temporal é a suposição de que ambos os grupos de tratamento experimentariam a
mesma alteração na hipertensão ao longo do tempo se o tratamento não tiver efeito.
Em outras palavras, se tivéssemos deixado os dois grupos sozinhos, sua hipertensão
mudaria exatamente a mesma quantidade. Dado que os grupos têm diferentes níveis
globais de hipertensão para começar, esta suposição pode não ser razoável, o que
prejudica o argumento para exigir igualdade grupal nas medidas de linha de base.
Para resumir, a independência da covariável e o tratamento tornam a interpretação
mais direta, mas não é um requisito estatístico. O ANCOVA pode ser imparcial quando
os grupos diferem nos níveis da covariável, mas, como Miller e Chapman indicam, cria
um problema de interpretação que o ANCOVA não pode deixar a magia.
Homogeneidade das inclinações de regressão

Quando uma ANCOVA é conduzida, analisamos a relação global entre o resultado


(variável dependente) e a covariável: nós ajustamos uma linha de regressão para todo
o conjunto de dados, ignorando em qual grupo uma pessoa pertence. Ao ajustar este
modelo geral, assumimos que essa relação geral é verdadeira para todos os grupos
de participantes. Esta suposição é chamada de hipótese de homogeneidade das
inclinações de regressão. A melhor maneira de pensar nesta suposição é imaginar
plotar um diagrama de dispersão para cada grupo de participantes com a covariável
em um eixo e o resultado no outro. Se a suposição for atendida, se você calculou e
desenhou a linha de regressão para cada uma dessas planilhas de dispersão, elas
devem parecer mais ou menos as mesmas (ou seja, os valores de b em cada grupo
devem ser iguais).

Vamos tentar tornar este conceito um pouco mais concreto. Lembre-se que o principal
exemplo neste capítulo analisa se diferentes doses de Viagra afetam a libido ao incluir
a libido do parceiro como uma covariável. A hipótese de homogeneidade de inclinação
de regressão significa que a relação entre o resultado (variável dependente) e a
covariável é a mesma em cada um dos nossos grupos de tratamento. A Figura 12.3
mostra um diagrama de dispersão que exibe essa relação (ou seja, a relação entre a
libido do parceiro, a covariável e o desfecho, a libido do participante) para cada uma
das três condições experimentais. Cada símbolo representa os dados de um
participante específico e o tipo de símbolo nos informa o grupo (círculos = placebo,
triângulos = baixa dose, quadrados = alta dose). As linhas são as inclinações de
regressão para o grupo em particular; eles resumem a relação entre libido e libido do
parceiro mostrada pelos pontos (grupo azul = grupo placebo, verde = grupo de baixa
dose, vermelho = grupo de doses elevadas). Existe uma relação positiva (a linha de
regressão flui para cima da esquerda para a direita) entre a libido do parceiro e a libido
do participante, tanto no placebo quanto nas condições de baixa dose. De fato, as
encostas das linhas para esses dois grupos (azul e verde) são muito semelhantes,
mostrando que a relação entre libido e libido do parceiro é muito similar nesses dois
grupos. Esta situação é um exemplo de homogeneidade das inclinações de regressão.
No entanto, na condição de alta dose, parece haver uma relação ligeiramente negativa
entre a libido e a libido do parceiro. A inclinação desta linha é muito diferente das
encostas nos outros dois grupos, sugerindo heterogeneidade das inclinações de
regressão (porque a relação entre a libido do participante e a libido do parceiro é
diferente no grupo de doses elevadas do que os outros dois grupos).
Embora em uma ANCOVA tradicional, a heterogeneidade das inclinações de regressão
é uma coisa ruim (Jane Superbrain Box 12.2), existem situações em que você
realmente pode esperar que as inclinações de regressão diferem entre os grupos e
esta é, por si só, uma hipótese interessante. Quando a pesquisa é conduzida em
diferentes locais, você pode razoavelmente esperar que os efeitos que você consegue
diferirem ligeiramente entre esses locais. Por exemplo, se você tivesse um novo
tratamento para dor nas costas, você pode obter vários fisioterapeutas para
experimentá-lo em diferentes hospitais. Você pode esperar que o efeito do tratamento
seja diferente entre esses hospitais (porque os terapeutas serão diferentes em
especialidade, os pacientes que eles verão terão problemas diferentes e assim por
diante). Como tal, a heterogeneidade das inclinações de regressão não é uma coisa
ruim por si só. Se você violou a hipótese de homogeneidade das inclinações de
regressão, ou se a variabilidade nas inclinações de regressão é uma hipótese
interessante em si mesma, então você pode modelar explicitamente essa variação
usando modelos lineares multiníveis (ver Capítulo 20).

O que fazer quando os pressupostos são violados

No Capítulo 5, discutimos métodos para corrigir problemas (por exemplo, redução de


polarização na Seção 5.4). Uma solução prática é usar um bootstrap para os
parâmetros do modelo e testes post hoc para que estes, pelo menos, sejam
robustos. Isso não ajudará os principais bits do ANCOVA (os testes F): há versões
robustas desses testes, mas o SPSS não os faz diretamente e você terá que investigar
um pacote chamado R em vez disso (Field et al., 2012).
Realização do ANCOVA no SPSS

Procedimento geral

O procedimento geral para fazer ANCOVA é muito parecido com a ANOVA


unidirecional - eles são, afinal, ambos os modelos lineares. Portanto, lembre-se do
procedimento geral para modelos lineares no Capítulo 8. A Figura 12.4 mostra uma
visão geral um pouco mais simples do processo que destaca algumas das questões
específicas ao realizar ANCOVA. Tal como acontece com qualquer análise, comece por
graficar os dados e procurar e corrigir fontes de polarização.

Introduzir dados

Nós já examinamos os dados (Tabela 12.1) e o arquivo de dados (ViagraCovariate.sav).


O arquivo contém três colunas: uma variável de codificação chamada Dose (1 =
placebo, 2 = dose baixa, 3 = dose alta), uma variável chamada Libido contendo as
pontuações da libido da pessoa e uma variável chamada Partner_Libido contendo as
pontuações para a libido do parceiro. As 30 linhas correspondem às pontuações de
cada pessoa nessas três variáveis.
Testando a independência da variável de tratamento e covariável

Na Seção 12.3.1, mencionei que, se a covariável e a variável de tratamento (variável


independente) forem independentes, torna a interpretação do ANCOVA muito mais
direta. Neste caso, a covariável proposta é a libido do parceiro, e assim poderemos
verificar se essa variável era aproximadamente igual em todos os níveis de nossa
variável independente. Em outras palavras, o nível médio da libido do parceiro é
aproximadamente igual em nossos três grupos Viagra? Podemos testar isso
executando uma ANOVA com Partner_Libido como resultado e Dose como preditor.

A saída 12.3 mostra os resultados dessa ANOVA. O efeito principal da dose não é
significativo, F (2, 27) = 1,98, p = 0,16, o que mostra que o nível médio de libido do
parceiro era aproximadamente o mesmo nos três grupos Viagra. Em outras palavras,
as médias para a libido do parceiro na Tabela 12.2 não são significativamente
diferentes nos grupos de placebo, baixa e alta. Este resultado é uma boa notícia para
usar a libido do parceiro como covariável na análise.

A análise principal

A maioria dos procedimentos do Modelo Linear Geral (GLM) no SPSS contém a


facilidade de incluir uma ou mais covariáveis. Para projetos que não envolvem medidas
repetidas, é mais fácil realizar ANCOVA através do procedimento Univariável GLM.
Para acessar a caixa de diálogo principal, selecione
(veja a Figura 12.5). A caixa de diálogo
principal é semelhante à da ANOVA unidirecional, exceto que existe um espaço para
especificar covariáveis. Selecione Libido e arraste essa variável para a caixa
denominada Variável Dependente ou clique em. Selecione Dose e arraste-o para a
caixa denominada Fator Fixo (s) e selecione Partner_Libido e arraste-o para a caixa
denominada Covaria (s).
Contrastes

Existem várias caixas de diálogo que podem ser acessadas a partir da caixa de diálogo
principal. A primeira coisa a notar é que, se uma covariável for selecionada, os testes
pos hoc são desativados (você não pode acessar esta caixa de diálogo). Testes post hoc
não são projetados para situações em que uma covariável é especificada; no entanto,
algumas comparações ainda podem ser feitas usando contrastes.

Clique no botão CONTRASTE para acessar a caixa de diálogo Contraste. Esta caixa de
diálogo é diferente da que conhecemos no Capítulo 11, na medida em que não é
possível inserir códigos para especificar contrastes particulares (mas veja SPSS Dica
12.1). Em vez disso, você pode especificar um dos vários contrastes padrão. Esses
contrastes padrão foram listados na Tabela 11.6. Neste exemplo, houve uma condição
de controle de placebo (codificada como o primeiro grupo), de modo que um conjunto
sensível de contrastes seria simples contrastes comparando cada grupo experimental
com o controle. Para selecionar um tipo de contraste, clique em NENHUM para
acessar uma lista suspensa de possíveis contrastes. Selecione um tipo de contraste
(neste caso SIMPLES) desta lista. Para contrastes simples, você tem a opção de
especificar uma categoria de referência (qual é a categoria contra a qual todos os
outros grupos são comparados). Por padrão, a categoria de referência é a última
categoria, mas porque, para nossos dados, o grupo de controle foi a primeira categoria
(assumindo que você codificou o placebo como 1) precisamos alterar essa opção
selecionando. Quando você selecionou PRIMEIRO uma nova opção de contraste, você
deve clicar para registrar essa alteração. A caixa de diálogo final deve ser a Figura 12.6.
Clique em CONTINUE para retornar à caixa de diálogo principal.
Outras opções

Você pode obter uma série limitada de testes post hoc clicando em OPÇÕES para
acessar a caixa de diálogo Opções (veja a Figura 12.7). Para especificar testes pós-hoc,
selecione a variável independente (neste caso Dose) da caixa denominada Médias
Marginais Estimadas: Fator (s) e Interações de Fator e arraste-o para a caixa
denominada Exibir Meios para ou clique em. Uma vez que uma variável foi transferida,
a caixa rotulada Comparar efeitos principais torna-se ativa e você deve selecionar esta
opção (COMPARAR PRINCIPAIS EFEITOS). Se esta opção for selecionada, a caixa
denominada Ajuste de intervalo de confiança torna-se ativa e você pode clicar para ver
uma escolha de três níveis de ajuste. O padrão é não ter nenhum ajuste e
simplesmente executar um teste post hoc Tukey LSD (esta opção não é recomendada);
o segundo é pedir uma correção de Bonferroni (recomendada); a opção final é ter uma
correção Šidák. A correção de Šidák é semelhante à correção de Bonferroni, mas é
menos conservadora e, portanto, deve ser selecionada se você estiver preocupado
com a perda de poder associada aos valores corrigidos por Bonferroni. Para este
exemplo, use a correção Šidák (já usamos Bonferroni no livro). Além de produzir Testes
post hoc para a variável Dose, o SPSS criará uma tabela de meios marginais estimados
para esta variável. Essas médias fornecem uma estimativa das médias de grupo
ajustadas (isto é, as médias ajustadas para o efeito da covariável). Quando você
selecionou as opções necessárias (veja Jane Superbrain Box 12.3), clique em para
retornar à caixa de diálogo principal.
Bootstrapping e parcelas

Existem outras opções disponíveis na caixa de diálogo principal. Por exemplo, se você
tiver várias variáveis independentes, você pode traçá-las uma contra a outra (o que é
útil para interpretar os efeitos de interação - veja a Seção 13.6). Além disso, como com
ANOVA unidirecional, a caixa de diálogo principal possui um botão BOOTSTRAP.
Selecionar esta opção iniciará os intervalos de confiança em torno das médias
marginais estimadas, estimativas de parâmetros e testes post hoc, mas não o teste F
principal. Isso pode ser útil para selecionar as opções descritas na Seção 5.4.3. Clique
OK na caixa de diálogo principal para executar a análise.

Interpretando o resultado da ANCOVA

O que acontece quando a covariável é excluída?

A saída 12.5 mostra (para fins ilustrativos) a tabela da ANOVA para esses dados
quando a covariável não está incluída. É claro que a partir do valor de significância, que
é maior que 0,05, que o Viagra parece não ter um efeito significativo na libido.
Também deve notar-se que a quantidade total de variação a ser explicada (SST) é de
110,97 (Total corrigido), dos quais a manipulação experimental representou 16,84
unidades (SSM), com 94,12 inexplicável (SSR).
A análise principal
A saída 12.6 mostra os resultados do teste de Levene (seção 5.3.3.2) e a tabela ANOVA
quando a libido do parceiro está incluída no modelo como covariável. O teste de
Levene é significativo, indicando que as variâncias do grupo não são iguais (portanto,
a hipótese de homogeneidade de variância foi violada). No entanto, como mencionei
na seção 5.3.3., O teste de Levene deve ser usado com cautela e, como a ANCOVA é
um modelo linear, é a homogeneidade dos resíduos que realmente importam (e isso
não é o que o teste de Levene examina aqui). Idealmente, você examinaria alguns
lotes de resíduos como fizemos no Capítulo 8 e, se iniciarmos as estimativas de
parâmetros e os testes pós-hoc, podemos ter confiança nestes robustos.

O formato da tabela ANOVA é em grande parte o mesmo que sem a covariável, exceto
que há uma linha adicional de informações sobre a covariável (Partner_Libido).
Olhando primeiro para os valores de significância, é claro que a covariável prediz
significativamente a variável dependente, porque o valor de significância é inferior a
0,05. Portanto, a libido da pessoa é influenciada pela libido de seu parceiro. O que é
mais interessante é que quando o efeito da libido do parceiro é removido, o efeito do
Viagra torna-se significativo (p = 0,27). A quantidade de variação representada pelo
Viagra aumentou para 25,19 unidades e a variância inexplicada (SSR) foi reduzida para
79,05 unidades. Observe que a SST não mudou; tudo isso mudou é como essa variação
total é explicada.
Este exemplo ilustra como o ANCOVA pode nos ajudar a exercer um controle
experimental mais rigoroso, levando em consideração variáveis confusas para nos dar
uma medida "mais pura" de efeito da manipulação experimental. Sem levar em conta
a libido dos parceiros dos participantes, teríamos concluído que o Viagra não teve
efeito sobre a libido, mas sim. Olhando para o grupo de médias da Tabela 12.1 para os
dados da libido, você pode pensar que a ANOVA significativa reflete uma diferença
entre o grupo de placebo e os dois grupos experimentais (porque os grupos de doses
baixas e altas possuem médias muito semelhantes, 4,88 e 4,85, enquanto que o grupo
placebo significa muito menor a 3,22). No entanto, não podemos usar essas médias de
grupo para interpretar o efeito porque eles não foram ajustados para o efeito da
covariável. Essas médias originais não nos dizem nada sobre as diferenças grupais
refletido pelo significativo ANCOVA.

A saída 12.7 fornece os valores ajustados dos meios de grupo (que calculamos na
Seção 12.2.1.2) e são esses valores que devem ser usados para interpretação (este é o
principal motivo para selecionar a opção EXIBIR MÉDIAS para opção). A partir dessas
médias ajustadas, você pode ver que a libido aumentou nas três doses.

A saída 12.8 mostra as estimativas de parâmetros selecionadas na caixa de diálogo


Opções e seus intervalos de confiança e p-valores de inicialização (tabela inferior).
Essas estimativas resultam de uma análise de regressão com Dose dividida em duas
variáveis de codificação falsas (ver Seção 12.2.1.2). As variáveis fictícias são codificadas
com a última categoria (a categoria codificada com o valor mais alto no editor de
dados - neste caso, o grupo de doses elevadas) como categoria de referência. Esta
categoria de referência (rotulada como "Dose = 3" na saída) é codificada com 0 para
ambas as variáveis dummy (ver Seção 11.2.1. Para uma lembrança de como funciona a
codificação falsa). Dose = 2, portanto, representa a diferença entre o grupo codificado
como 2 (dose baixa) e a categoria de referência (dose alta) e Dose = 1 representa a
diferença entre o grupo codificado como 1 (placebo) e a categoria de referência (alta
dose). Os valores de valor representam as diferenças entre os meios ajustados na saída
12.7 e os significados dos T-test nos dizem se esses grupos ajustados diferem
significativamente. As estimativas de b na Saída 12.8 correspondem aos valores que
calculamos na Seção 12.2.1.2. Assim, o b para Dose = 1 é a diferença entre os meios
ajustados para o grupo placebo e o grupo de doses elevadas, 2.926 - 5.151 = -2.225, e
b para Dose = 2 é a diferença entre os meios ajustados para o baixo - grupo de dose e
grupo de doses elevadas, 4,712 - 5,151 = -0,439.

OUTPUT 12.8
Os graus de liberdade para o teste t dos parâmetros b são N-p-1 (como é o caso da
regressão múltipla, ver Seção 8.2.5.), Na qual N é o tamanho total da amostra (neste
caso 30) e p é o número de preditores (neste caso 3, as duas variáveis fofas e a
covariável). Para estes dados, df = 30 - 3 - 1 = 26. Com base nos significados e
intervalos de confiança do bootstrapped (lembre-se de que você terá valores
diferentes de mim por causa do funcionamento do bootstrapping), podemos concluir
que a alta dose difere significativamente o grupo do placebo, p = 0,016 (Dose = 1 na
tabela), mas não do grupo de baixa dose, p = .556, (Dose = 2 na tabela).

A coisa final a notar é o valor de b para o covariável (0.416), que é o mesmo que na
saída 12.2 (quando realizamos a análise através do menu de regressão). Esse valor nos
diz que se a libido de um parceiro aumenta em uma unidade, então a libido da pessoa
deve aumentar em pouco menos de metade da unidade (embora não haja nada para
sugerir uma ligação causal entre os dois); porque o coeficiente é positivo, sabemos
que, à medida que a libido do parceiro aumenta, o mesmo acontece com o de seu
parceiro. Um coeficiente negativo significaria o oposto: como um aumenta, o outro
diminui.

Contrastes

A saída 12.9 mostra o resultado da análise de contraste especificada na Figura 12.6 e


compara o nível 2 (baixa dose) com o nível 1 (placebo) como primeira comparação e
nível 3 (dose alta) contra o nível 1 (placebo) como segunda comparação. Esses
contrastes são consistentes com o especificado: todos os grupos são comparados ao
primeiro grupo. As diferenças de grupo são exibidas: um valor de diferença, erro
padrão, valor de significância e intervalo de confiança de 95%. Estes resultados
mostram que tanto o grupo de baixa dose (contraste 1, p = 0,045) quanto o grupo de
dose elevada (contraste 2, p = 0,010) apresentaram libidos significativamente
diferentes do que o grupo placebo (note que o contraste 2 é idêntico ao Parâmetros
de regressão para Dose = 1 na seção anterior).

A saída 12.10 mostra os resultados das comparações post hoc corrigidas por Šidák que
foram solicitadas como parte da caixa de diálogo Opções. A tabela inferior mostra os
significados e intervalos de confiança do bootstrapped para esses testes e, porque
estes serão robustos, interpretaremos essa tabela (novamente, lembre-se, seus
valores serão diferentes por causa do funcionamento do bootstrapping). Existe uma
diferença significativa entre o grupo placebo e os grupos de dose baixa (p = 0,003) e
alta (p = 0,02). Os grupos de doses altas e baixas não diferiram significativamente (p =
0,56). É interessante que a diferença significativa entre os grupos de baixa dose e
placebo quando bootstrapped (p = 0,003) não está presente para os testes pós hoc
normais (p = 0,130). Isso pode refletir as propriedades dos dados que têm polarizado a
versão não robusta do teste post hoc.
Interpretando a covariável

Eu já mencionei as estimativas dos parâmetros (Saída 12.8) nos digam como


interpretar a covariável: o sinal do valor b nos mostra a direção da relação entre a
covariável e a variável de resultados. Para esses dados, o valor b foi positivo, indicando
que, como a libido do parceiro aumenta, assim como a libido do participante. Outra
maneira de descobrir o mesmo é desenhar um diagrama de dispersão da covariável
contra o resultado.
A Figura 12.8 confirma que o efeito da covariável é a medida que a libido do parceiro
aumenta, assim como a libido do participante (como mostra a inclinação da linha de
regressão).

Testando a hipótese de homogeneidade das inclinações de regressão

Vimos anteriormente no capítulo que a hipótese de homogeneidade das inclinações de


regressão significa que a relação entre a variável covariável e variável de resultado
(neste caso, Partner_Libido e Libido) deve ser semelhante em diferentes níveis da
variável preditor (neste caso, nas três Dose grupos). A Figura 12.3 mostrou diagramas
de dispersão da relação entre Partner_Libido e Libido nos três grupos. Este diagrama
de dispersão mostrou que, embora este relacionamento fosse comparável nos grupos
de baixa dose e placebo, ele apareceu diferente no grupo de doses elevadas.

Para testar a hipótese de homogeneidade das inclinações de regressão, precisamos


reencaminhamento do ANCOVA, mas desta vez use um modelo personalizado. Acesse
a caixa de diálogo principal como antes e coloque as variáveis nas mesmas caixas do
que antes (para que a caixa concluída pareça ser a Figura 12.5). Para personalizar o
modelo, precisamos acessar a caixa de diálogo Modelo (Figura 12.9) clicando em
MODEL. Para personalizar seu modelo, selecione CUSTOM para ativar a caixa de
diálogo na Figura 12.9. As variáveis especificadas na caixa de diálogo principal estão
listadas no lado esquerdo. Para testar a hipótese de homogeneidade das inclinações
de regressão, precisamos especificar um modelo que inclua a interação entre a
variável covariável e independente. Normalmente, o ANCOVA inclui apenas o efeito
principal da dose e a libido do parceiro e não inclui esse termo de interação. Para
testar este termo de interação, é importante ainda incluir os principais efeitos da dose
e do parceiro para que o termo de interação seja testado controlando esses efeitos
principais. Se não incluímos os efeitos principais, a variância da libido pode ser
atribuída ao termo de interação que de outra forma seria atribuído aos principais
efeitos.

Portanto, para começar, você deve selecionar Dose e Partner_Libido (você pode
selecionar ambos ao mesmo tempo, mantendo pressionada a tecla Ctrl ou Cmd em um
Mac). Em seguida, clique no menu drop-down e altere-o para . Depois de
selecionar isso, clique em para mover os principais efeitos de Dose e Partner_Libido
para a caixa rotulada Model. Em seguida, especifique o termo de interação ao
selecionar novamente Dose e Partner_Libido simultaneamente (conforme descrito) e
selecione na lista suspensa e clique em. Essa ação move a interação de
Dose e Partner_Libido com a caixa rotulada Model. A caixa de diálogo concluída deve
ser a Figura 12.9. Clique em para retornar à caixa de diálogo principal e
depois clique em para executar a análise.

A saída 12.11 mostra o quadro de resumo principal do ANCOVA, incluindo o termo de


interação. Os efeitos da dose de Viagra e da libido do parceiro ainda são significativos,
mas a principal coisa em que nos interessa é o termo de interação, então veja o valor
de significância da covariável pela interação resultante (Dose × Partner_Libido). Se esse
efeito for significativo, a suposição de homogeneidade das inclinações de regressão foi
quebrada. O efeito aqui é significativo (p = 0,028); portanto, o pressuposto não é
sustentável. Embora esta descoberta não seja surpreendente, dado o padrão de
relações mostrado na Figura 12.3, suscita preocupação com a análise principal.

Cálculo do tamanho do efeito

Vimos no capítulo anterior que podemos usar eta quadrado, η2, como medida de
tamanho de efeito em ANOVA. Este tamanho de efeito é apenas r2 por outro nome e é
calculado dividindo o efeito de interesse, SSM, pela quantidade total de variância nos
dados, SST. Como tal, é a proporção da variância total explicada por um efeito. Em
ANCOVA (e algumas das ANOVAs mais complexas que encontraremos em capítulos
futuros), temos mais de um efeito; portanto, podemos calcular eta quadrado para
cada efeito. No entanto, também podemos usar uma medida de tamanho de efeito
chamada parcial eta quadrado (η2 parcial). Isso difere do eta quadrado na medida em
que não se refere à proporção de variância total que uma variável explica, mas na
proporção de variância que uma variável explica que não é explicada por outras
variáveis na análise. Vejamos isso com o nosso exemplo; suponha que queremos saber
o tamanho do efeito da dose de Viagra. Parcial eta quadrado é a proporção de
variância na libido que a dose de Viagra compartilha que não é atribuída à libido do
parceiro (a covariável). Se você pensa sobre a variância que a covariável não pode
explicar, existem duas fontes: não pode explicar a variância atribuível à dose de Viagra,
SSViagra, e não pode explicar a variabilidade de erro, SSR. Portanto, usamos essas duas
fontes de variação em vez da variabilidade total, SST, no cálculo. A diferença entre eta
quadrado e parcial eta quadrado é mostrada nas seguintes equações:
Podemos obter SPSS para produzir parcial eta caráter para nós (ver Jane Superbrain
Box 12.3). Para ilustrar o seu cálculo, vejamos nosso exemplo Viagra. Precisamos usar
as somas dos quadrados na saída 12.6 para o efeito da dose (25.19), da covariável
(15.08) e do erro (79.05):
Esses valores mostram que Dose explicou uma maior proporção da variância não
atribuível a outras variáveis do que Partner_Libido.

Tal como acontece com ANOVA, você também pode usar omega quadrado (ω 2). No
entanto, como vimos na Seção 11.8, esta medida só pode ser calculada quando temos
números iguais de participantes em cada grupo (o que não é o caso neste exemplo).
Então, estamos um pouco perplexos!

No entanto, tudo não está perdido porque, como já disse muitas vezes, o tamanho do
efeito geral não é tão interessante quanto o tamanho do efeito para comparações
mais focadas. Estes são fáceis de calcular porque selecionamos parâmetros de
regressão (ver saída 12.8) e, portanto, temos estatísticas t para a covariável e
comparações entre os grupos de doses baixas e altas e o grupo placebo e dose alta.
Essas estatísticas t têm 26 graus de liberdade (ver Seção 12.5.1.). Podemos usar a
mesma equação que na seção 9.6.4 .:

Portanto, obtemos (com t da Saída 12.8):

Se você pensa de volta aos nossos benchmarks para tamanhos de efeito, o efeito da
covariável e a diferença entre a dose elevada e o placebo representam tamanhos de
efeito médio a grande (estão todos entre 0,4 e 0,5). Portanto, além de serem
estatisticamente significativos, esses efeitos são resultados substantivos. A diferença
entre os grupos de dose alta e baixa foi um efeito bastante pequeno.
Resultados do relatório

Informar o ANCOVA é muito parecido com a ANOVA de relatórios, exceto que agora
devemos relatar o efeito da covariável também. Para o covariável e o efeito
experimental, damos detalhes da relação F e dos graus de liberdade a partir dos quais
foi calculado. Em ambos os casos, a razão F foi derivada de dividir os quadrados
médios para o efeito pelos quadrados médios para o residual. Portanto, os graus de
liberdade utilizados para avaliar a relação F são os graus de liberdade para o efeito do
modelo (dfM = 1 para o covariável e 2 para o efeito experimental) e os graus de
liberdade para os resíduos do modelo ( dfR = 26 para o efeito covariável e
experimental) - ver saída 12.6. Portanto, a maneira correta de relatar as principais
descobertas seria:

A covariável, a libido do parceiro, foi significativamente relacionada à libido do


participante, F (1, 26) = 4,96, p = 0,035, r = 0,40. Houve também um efeito significativo
do Viagra nos níveis de libido após o controle do efeito da libido do parceiro, F (2, 26) =
4.14, p = .027, η2 parcial = .24.

Também podemos relatar alguns contrastes (ver saída 12.8):

Os contrastes planejados revelaram que ter uma alta dose de Viagra aumentou
significativamente a libido em comparação com um placebo, t (26) = -2,77, p = 0,01, r =
0,48, mas não comparado a uma baixa dose, t (26) = -0,54, p = 0,50, r = 0,11.
ANOVA Fatorial (GLM 3)
Projetos fatoriais

Nos dois capítulos anteriores, exploramos situações nas quais analisamos os efeitos de
uma única variável independente em algum resultado. No entanto, as variáveis
independentes geralmente ficam solitárias e querem ter amigos. Os cientistas estão
obrigando os indivíduos e muitas vezes colocam uma segunda (ou terceira) variável
independente em seus projetos para manter a companhia dos outros. Quando um
experimento tem duas ou mais variáveis independentes, ele é conhecido como um
projeto fatorial (isto é, porque, como vimos, as variáveis às vezes são referidas como
fatores). Existem vários tipos de design fatorial:

1. Desenho fatorial independente: neste tipo de experimento, existem várias


variáveis independentes ou preditores e cada uma foi medida usando
diferentes entidades (entre grupos). Discutimos este projeto neste capítulo.

2. Projeto fatorial de medidas repetidas (relacionadas): esta é uma experiência


na qual várias variáveis independentes ou preditores foram mensurados, mas
as mesmas entidades foram usadas em todas as condições. Este projeto é
discutido no Capítulo 14.

3. Projeto misto: este é um projeto no qual várias variáveis independentes ou


preditores foram medidos; alguns foram medidos com entidades diferentes,
enquanto outros usaram as mesmas entidades. Este projeto é discutido no
Capítulo 15.

Como você pode imaginar, analisar esses tipos de experiências pode ficar bastante
complicado. Felizmente, podemos ampliar o modelo ANOVA que encontramos nos
dois capítulos anteriores para lidar com essas situações mais complicadas. Quando
usamos ANOVA para analisar uma situação em que existem duas ou mais variáveis
independentes, às vezes é chamado de ANOVA fatorial; no entanto, os nomes
específicos associados a diferentes ANOVAs refletem o design experimental que eles
estão sendo usados para analisar (ver Jane Superbrain Box 13.1). Esta seção amplia o
modelo ANOVA unidirecional para o caso fatorial (especificamente quando há duas
variáveis independentes). Nos capítulos subsequentes, analisaremos projetos de
medidas repetidas, projetos fatoriais de medidas repetidas e, finalmente, projetos
mistos.

Jane Superbrain Box 13.1

Nomeando ANOVAs
ANOVA pode ser bastante confuso porque parece haver muitos deles. Quando você lê
artigos de pesquisa, muitas vezes você encontrará frases como 'uma ANOVA
independente de duas vias', ou 'uma ANOVA de três medidas repetidas' foi conduzida
'. Esses nomes podem parecer confusos, mas são bastante fáceis se você os derrubar.
Todas as ANOVAs têm duas coisas em comum: envolvem alguma quantidade de
variáveis independentes, e essas variáveis podem ser medidas usando as mesmas
entidades ou diferentes. Se as mesmas entidades forem usadas, normalmente usamos
o termo medidas repetidas e se diferentes entidades forem usadas, usamos o termo
independente. Quando existem duas ou mais variáveis independentes, é possível que
algumas variáveis usem as mesmas entidades enquanto outras usam entidades
diferentes. Neste caso, usamos o termo mix. Quando chamamos uma ANOVA, estamos
simplesmente contando ao leitor quantas variáveis independentes usamos e como elas
foram medidas. Em geral, poderíamos chamar uma ANOVA:

Um (número de variáveis independentes) - caminho (como essas variáveis foram


medidas) ANOVA.

Ao lembrar isso, você pode entender o nome de qualquer ANOVA que você enfrenta.
Observe esses exemplos e tente descobrir quais variáveis foram usadas e como elas
foram medidas:

ANOVA independente de sentido único;


ANOVA de medidas repetidas de duas vias;
ANOVA mista de duas vias;
ANOVA independente de três vias.

As respostas que você deve obter são:

Uma variável independente medida usando diferentes entidades;


Duas variáveis independentes ambas medidas usando as mesmas entidades;
Duas variáveis independentes, uma medida usando entidades diferentes e a outra
medida usando as mesmas entidades;
Três variáveis independentes, todas as quais são medidas usando entidades diferentes.

Adivinha? ANOVA fatorial é um modelo linear

Ao longo deste capítulo, usaremos um exemplo que possui duas variáveis


independentes. Isso é conhecido como ANOVA de dois sentidos (ver Jane Superbrain
Box 13.1). Vou ver um exemplo com duas variáveis independentes porque esta é a
extensão mais simples das ANOVAs que já encontramos. Uma antropóloga estava
interessada nos efeitos do álcool na seleção do parceiro nas casas noturnas. Sua lógica
era que, após o consumo de álcool, as percepções subjetivas de atratividade física se
tornariam mais imprecisas (o conhecido efeito de cerveja-óculos). Ela também estava
interessada em saber se esse efeito era diferente para homens e mulheres. Ela
escolheu 48 alunos: 24 homens e 24 mulheres. Ela então levou grupos de oito
participantes a uma boate e não lhes deu álcool (os participantes receberam bebidas
com placebo de cerveja sem álcool), 2 litros de cerveja forte ou 4 litros de cerveja
forte. No final da noite, ela tomou uma fotografia da pessoa que o participante
conversava. Ela então conseguiu um grupo de juízes independentes para avaliar a
atratividade da pessoa em cada fotografia (de 100). Os dados estão na Tabela 13.1 e
no Goggles.sav.
Vimos na Seção 11.2.1. que essa ANOVA unidirecional poderia ser conceituada como
uma equação de regressão (um modelo linear geral). Nesta seção consideraremos
como ampliamos esse modelo linear para incorporar duas variáveis independentes.
Para manter as coisas mais simples possível, quero que você imagine que temos
apenas dois níveis da variável álcool em nosso exemplo (nenhum e 4 litros). Como tal,
temos duas variáveis preditoras, cada uma com dois níveis. Todos os modelos lineares
gerais que consideramos neste livro tomam a forma geral de:

Outcome i= (modelo) + erro i

Por exemplo, quando encontramos uma regressão múltipla no Capítulo 8 vimos que
este modelo foi escrito como (veja a equação (8.6)):

Além disso, quando encontramos um ANOVA unidirecional, adaptamos esse modelo


de regressão para conceituar nosso exemplo Viagra, como (veja a equação (11.1)):

Libido i= (b0 + b2 Highi + b1 Low i ) + εi

Neste modelo, as variáveis Alta e Baixa eram variáveis dummy (isto é, variáveis que
podem levar apenas valores de 0 ou 1). No nosso exemplo atual, temos duas variáveis:
gênero (masculino ou feminino) e álcool (nenhum e 4 litros). Podemos codificar cada
um deles com zeros e outros (por exemplo, podemos codificar o gênero como 0 =
masculino, 1 = feminino, e podemos codificar a variável álcool como 0 = nenhum, 1 = 4
copos). Poderíamos então copiar diretamente o modelo que possuímos na ANOVA
unidirecional:

Attractivenessi = (b0 + b1Gender i + b2 Alcoholi) + εi


No entanto, este modelo não considera a interação entre gênero e álcool. Se
quisermos incluir esse termo também, então o modelo simplesmente se estende para
se tornar (primeiro expresso em geral e depois em termos deste exemplo específico):

A questão é: como codificamos o termo de interação? Vimos como fazer isso na Seção
10.3. O termo de interação representa o efeito combinado de álcool e gênero; para
obter qualquer termo de interação na regressão, você simplesmente multiplica as
variáveis envolvidas. É por isso que você vê os termos de interação escritos como
gênero × álcool, porque em termos de regressão, a variável de interação literalmente
são as duas variáveis multiplicadas entre si. A Tabela 13.2 mostra as variáveis
resultantes para a regressão (note que a variável de interação é simplesmente o valor
da variável dummy de gênero multiplicada pelo valor da variável dummy de álcool).
Assim, por exemplo, um macho que recebe 4 litros de álcool teria um valor de 0 para a
variável de gênero, 1 para a variável de álcool e 0 para a variável de interação. O grupo
significa que para as várias combinações de gênero e álcool também estão incluídos,
porque eles serão úteis no devido tempo.

TABELA 13.2 Esquema de codificação para ANOVA fatorial

Para descobrir o que os valores b representam neste modelo, podemos fazer o mesmo
que fizemos para o teste t e ANOVA unidirecional; ou seja, veja o que acontece
quando inserimos valores de nossos preditores (gênero e álcool). Para começar, vamos
ver o que acontece quando olhamos para homens que não tinham álcool. Neste caso,
o valor do gênero é 0, o valor do álcool é 0 e o valor da interação também é 0. O
resultado que prevemos (como com ANOVA unidirecional) é a média deste grupo
(66.875), então nosso modelo se torna:

Assim, a constante b0 no modelo representa a média do grupo para o qual todas as


variáveis são codificadas como 0. Como tal, é o valor médio da categoria base (neste
caso homens que não tinham álcool). Agora vejamos o que acontece quando olhamos
para as mulheres que não tinham álcool. Neste caso, a variável de gênero é 1 e as
variáveis de álcool e interação ainda são 0. Lembre-se também que b 0 é a média dos
homens que não tinham álcool. O resultado é a média para as mulheres que não
tinham álcool. Portanto, a equação torna-se:

Então, b2 no modelo representa a diferença entre não ter álcool e 4 litros nos homens.
Em geral, é o efeito do álcool na categoria base de gênero (ou seja, a categoria de
gênero codificada com 0, neste caso, homens).

Finalmente, podemos observar mulheres com 4 litros de álcool. Neste caso, a variável
de gênero é 1, a variável de álcool é 1 e a variável de interação também é 1. Também
podemos substituir b0, b1 e b2, pelo que agora sabemos que eles representam. O
resultado é a média para as mulheres que tiveram 4 litros. Portanto, a equação torna-
se:
FIGURA 13.2 Destruir o que representa uma interação

Descrevendo o que representa uma interação

Então, b3 no modelo realmente compara a diferença entre homens e mulheres na


condição de não álcool para a diferença entre homens e mulheres na condição de 4-
litros. Dito de outra forma, compara o efeito do gênero após o álcool ao efeito do
gênero após 4 litros. Se você pensa sobre isso em termos de um gráfico de interação,
isso faz todo o sentido. Por exemplo, o lado superior esquerdo da Figura 13.2 mostra o
gráfico de interação desses dados. Agora imagine que calculamos a diferença entre
homens e mulheres para os grupos sem álcool. Esta seria a diferença entre as linhas no
gráfico para o grupo sem álcool (a diferença entre os meios de grupo, que é de 6,25).
Se fizermos o mesmo para o grupo de 4 pinos, achamos que a diferença entre homens
e mulheres é -21.875. Se traçamos esses dois valores como um novo gráfico,
obteríamos uma linha conectando 6.25 a -21.875 (veja o lado inferior esquerdo da
Figura 13.2). Isso reflete a diferença entre o efeito do gênero após o consumo de
álcool em comparação com após 4 pintas. Sabemos que os valores b a representam
gradientes de linhas e, de fato, b3 em nosso modelo é o gradiente desta linha (isto é
6.25 - (-21.875) = 28.125). Veja também o que acontece se não houver um efeito de
interação: o lado direito da Figura 13.2 mostra os mesmos dados, exceto que a média
para as fêmeas que tiveram 4 pintas foi alterada para 30. Se calculamos a diferença
entre homens e mulheres depois de nenhum álcool obtemos o mesmo que antes:
6.25. Se calculamos a diferença entre homens e mulheres após 4 pintas, agora
obtemos 5.625. Se voltarmos a traçar essas diferenças em um novo gráfico,
encontramos uma linha praticamente horizontal. Assim, quando não há interação, a
linha que conecta o efeito do gênero após o não álcool e após 4 pintas é plana e a
resultante b3 em nosso modelo seria próxima de 0 (lembre-se de que um gradiente
zero significa uma linha plana). Na verdade, seu valor real seria de 6,25 - 5,625 = 0,625.

A tabela resultante de coeficientes está na saída 13.1. O importante a notar é que o


valor beta para a interação (28.125) é o mesmo que acabamos de calcular, o que,
espero, o convencesse de que o ANOVA fatorial é apenas uma regressão vestida com
uma fantasia diferente - como é tudo, seria parece. O que eu espero ter mostrado
neste exemplo é como até mesmo as ANOVAs complexas são apenas formas de
regressão (um modelo linear geral). Você ficará satisfeito por saber (como sou, na
verdade) que este é o último que eu vou dizer sobre a ANOVA como modelo linear
geral. Espero ter lhe dado todo o conteúdo para que tenha a sensação de que
podemos continuar adicionando variáveis independentes no nosso modelo. Tudo o
que acontece é que essas novas variáveis apenas são adicionadas a uma equação de
regressão múltipla com um valor beta associado (assim como o capítulo de regressão).
Os termos de interação também podem ser adicionados simplesmente multiplicando
as variáveis que interagem. Esses termos de interação também terão um valor beta
associado.

ANOVA de dois sentidos: nos bastidores

Agora que temos uma boa compreensão conceitual da ANOVA fatorial como uma
extensão da idéia básica de um modelo linear, voltaremos nossa atenção para alguns
cálculos específicos que vão nos bastidores. O motivo para isso é que ele deve ajudá-lo
a entender o que significa a saída da análise.
ANOVA de dois sentidos é conceitualmente muito semelhante à ANOVA unidirecional.
Basicamente, ainda encontramos a soma total de erros quadrados (SST) e dividimos
essa variância em variância que pode ser explicada pela experiência (SSM) e variância
que não pode ser explicada (SSR). No entanto, na ANOVA de dois sentidos, a variância
explicada pelo experimento é constituída por não uma manipulação experimental, mas
duas. Portanto, quebramos a soma dos quadrados em variância explicada pela
primeira variável independente (SSA), variância explicada pela segunda variável
independente (SSB) e variância explicada pela interação dessas duas variáveis ( SS AxB ) -
veja Figura 13.3.

Montantes totais de quadrados (SST)

Começamos da mesma maneira que fizemos por uma ANOVA de sentido único. Ou
seja, calculamos a quantidade de variabilidade entre os escores quando ignoramos a
condição experimental a partir da qual eles vieram. Lembre-se de ANOVA unidirecional
(equação (11.3)) que a SST é calculada usando a seguinte equação:

A grande variância é simplesmente a variância de todas as pontuações quando


ignoramos o grupo ao qual elas pertencem. Então, se tratássemos os dados como um
grande grupo, seria o seguinte:
Se calcularmos a variância de todas essas pontuações, obtemos 190.78 (tente isso em
sua calculadora se você não confia em mim). Utilizamos 48 pontuações para gerar esse
valor e, portanto, N é 48. Como tal, a equação torna-se:

Os graus de liberdade para esta SS serão N-1 ou 47.

Modelo de soma de quadrados, SSM

O próximo passo é calcular a soma do modelo dos quadrados. Como sugeri


anteriormente, esta soma de quadrados é então dividida em três componentes:
variação explicada pela primeira variável independente (SSA), variação explicada pela
segunda variável independente (SSB) e variância explicada pela interação dessas duas
variáveis (SSA × B).

Antes de quebrar a soma do modelo de quadrados em suas partes componentes,


primeiro devemos calcular seu valor. Sabemos que temos 8966,66 unidades de
variância a serem explicadas, e nosso primeiro passo é calcular o valor dessa variação
explicado por nossas manipulações experimentais em geral (ignorando quais das duas
variáveis independentes são responsáveis). Quando fizemos ANOVA unidirecional,
calculamos a soma do modelo dos quadrados, observando a diferença entre cada
média do grupo e a média geral (ver Seção 11.2.4.). Nós podemos fazer o mesmo aqui.
Nós efetivamente temos seis grupos experimentais se combinarmos todos os níveis
das duas variáveis independentes (três doses para os participantes do sexo masculino
e três doses para as fêmeas). Assim, dado que temos seis grupos de pessoas
diferentes, podemos então aplicar a equação para a soma modelo de quadrados que
usamos para ANOVA unidirecional (equação (11.4)):

A grande média é a média de todas as pontuações (calculamos isso acima como 58.33)
e n é o número de pontuações em cada grupo (ou seja, o número de participantes em
cada um dos seis grupos experimentais, oito neste caso). Portanto, a equação torna-se:

Os graus de liberdade para esta SS serão o número de grupos utilizados, k, menos 1.


Utilizamos seis grupos e, portanto, df = 5. Nesta fase, sabemos que o modelo (nossas
manipulações experimentais) pode explicar 5479.167 unidades de variância do total de
8966,66 unidades. O próximo estágio é reduzir ainda mais esta soma modelo de
quadrados para ver a quantidade de variância explicada separadamente por nossas
variáveis independentes.

O principal efeito do gênero, SSA

Para calcular a variância explicada pela primeira variável independente (neste caso,
gênero), precisamos agrupar as pontuações de acordo com o gênero a que pertencem.
Então, basicamente, ignoramos a quantidade de bebida que ficou bêbada, e nós
apenas colocamos todas as pontuações masculinas em um grupo e todas as
pontuações femininas em outra. Assim, os dados serão semelhantes à Figura 13.4
(note que a primeira caixa contém as três colunas femininas da nossa tabela original e
a segunda caixa contém as colunas masculinas).
Posteriormente, podemos aplicar a equação para o modelo de soma de quadrados que
usamos para calcular a soma geral do modelo dos quadrados:

A média principal é a média de todas as pontuações (acima) e n é o número de


pontuações em cada grupo (ou seja, o número de machos e fêmeas; 24 neste caso).
Portanto, a equação torna-se:

Os graus de liberdade para esta SS serão o número de grupos utilizados, k, menos 1.


Utilizamos dois grupos (machos e fêmeas) e, portanto, df = 1. Para resumir, o principal
efeito do gênero compara a média de todos os homens contra a média de todas as
mulheres (independentemente do grupo de álcool em que estavam).

O principal efeito do álcool, SSB


Para calcular a variância explicada pela segunda variável independente (neste caso,
álcool), precisamos agrupar as pontuações no conjunto de dados de acordo com a
quantidade de álcool consumida. Então, basicamente, ignoramos o gênero do
participante, e simplesmente colocamos todas as pontuações depois de nenhuma
bebida em um grupo, as pontuações após 2 pintas em outro grupo e as pontuações
após 4 pintas em um terceiro grupo. Então, os dados se parecerão com a Figura 13.5.

Podemos então aplicar a mesma equação para o modelo de soma de quadrados que
usamos para a soma geral do modelo dos quadrados e para o efeito principal do
gênero:

A grande média é a média de todas as pontuações (58,33 como antes) e n é o número


de pontuações em cada grupo (ou seja, o número de pontuações em cada uma das
caixas acima, neste caso 16). Portanto, a equação torna-se:

Os graus de liberdade para este SS serão o número de grupos utilizados menos 1 (ver
Seção 11.2.4.). Utilizamos três grupos e, portanto, df = 2. Para resumir, o efeito
principal do álcool compara os meios dos grupos sem álcool, 2-pintas e 4-pintas
(independentemente de se os resultados são de homens ou mulheres).

O efeito de interação, SSA × B

O estágio final é calcular a quantidade de variação explicada pela interação das duas
variáveis. A maneira mais simples de fazer isso é lembrar que o SSM é composto por
três componentes (SSA, SSB e SSA × B). Portanto, dado que conhecemos SSA e SSB,
podemos calcular o termo de interação usando a subtração:

Portanto, para esses dados, o valor é:

Os graus de liberdade podem ser calculados da mesma forma, mas também são
produto dos graus de liberdade para os principais efeitos (qualquer método funciona):

A soma residual de quadrados, SSR

A soma residual de quadrados é calculada do mesmo modo que para ANOVA


unidirecional (ver Seção 11.2.5.) E novamente representa diferenças individuais no
desempenho ou variância que não podem ser explicadas por fatores que foram
sistematicamente manipulados. Vimos em ANOVA de sentido único que o valor é
calculado tomando o erro quadrado entre cada ponto de dados e seu grupo
correspondente significa. Uma maneira alternativa de expressar isso é (veja a equação
(11.6)):
Então, usamos as variações individuais de cada grupo e multiplicamos por um menos
do que o número de pessoas dentro do grupo (n). Nós temos as variações de grupos
individuais em nossa tabela de dados original (Tabela 13.1) e havia oito pessoas em
cada grupo (portanto, n = 8) e, portanto, a equação torna-se:

Os graus de liberdade para cada grupo serão inferiores ao número de pontuações por
grupo (ou seja, 7). Portanto, se adicionamos os graus de liberdade para cada grupo,
obtemos um total de 6 × 7 = 42.

Os índices F

Cada efeito em uma ANOVA de dois sentidos (os dois efeitos principais e a interação)
tem sua própria relação F. Para calcular estes, devemos primeiro calcular os quadrados
médios para cada efeito, tomando a soma dos quadrados e dividindo pelos respectivos
graus de liberdade (pense na seção 11.2.6.). Também precisamos dos quadrados
médios para o termo residual. Então, para este exemplo, teríamos quatro quadrados
médios calculados da seguinte forma:

As proporções F das duas variáveis independentes e suas interações são então


calculadas do mesmo modo que para a ANOVA unidirecional, dividindo os quadrados
médios pelos quadrados médios residuais:
SPSS calcula um p-valor exato para cada uma dessas proporções F para nos dizer como
esses valores são semelhantes se não houvesse efeito na população. O ponto principal
é que o ANOVA bidirecional é basicamente o mesmo que o ANOVA unidirecional,
exceto que a soma do modelo de quadrados é dividida em três partes: o efeito de cada
uma das variáveis independentes e o efeito de como essas variáveis interagem.

Pressupostos de ANOVA fatorial

A ANOVA fatorial é novamente uma extensão do modelo linear para que todas as
fontes de viés potencial (e medidas contrárias) discutidas no Capítulo 5 sejam
aplicáveis (por exemplo, redução de polarização na Seção 5.4). Se você violou a
suposição de homogeneidade de variância, então você pode tentar implementar
correções com base no procedimento Welch que foi descrito no capítulo anterior. No
entanto, isso é bastante técnico, o SPSS não o faz, e se você tiver algo mais complicado
do que um design 2 × 2, então, seria menos doloroso cobrir seu corpo em cortes de
papel e banhar-se em molho de pimenta (ver Algina & Olejnik, 1984). Uma solução
prática é inicializar os testes post hoc para que estes sejam robustos. Isso não ajudará
os bits principais da ANOVA (testes F): existem versões robustas da ANOVA fatorial,
mas o SPSS não as faz diretamente e você terá que investigar um pacote chamado R
em vez disso (Field et al., 2012).

ANOVA fatorial usando SPSS

Procedimento geral para ANOVA fatorial

Os passos na realização de uma ANOVA fatorial são os mesmos que para a ANOVA
unidirecional, então consulte a Figura 11.9 como um guia.

Inserindo os dados e acessando a caixa de diálogo principal.

Precisamos criar duas variáveis de codificação diferentes no editor de dados para


representar o consumo de gênero e álcool. Então, crie uma variável chamada Gênero
no editor de dados. Tivemos muita experiência com os valores de codificação, então
você deve estar bastante feliz em como definir rótulos de valor para representar os
dois gêneros: recomendo usar o código macho = 0 e fêmea = 1. Depois de ter feito
isso, você pode insira um código de 0 ou 1 na coluna de gênero indicando a qual grupo
a pessoa pertencia. Crie um segunda variável chamada Álcool e atribuir códigos de
grupo usando a caixa de diálogo Etiquetas: sugiro placebo (sem álcool) = 1, 2 pintas = 2
e 4 pintas = 3. No editor de dados, insira 1, 2 ou 3 na coluna de álcool para representar
a quantidade de álcool consumida pelo participante. Lembre-se de que se você ativar a
opção de etiquetas de valor, você verá texto no editor de dados em vez dos códigos
numéricos. A codificação sugerida é na Tabela 13.3.

AUTO-TESTE - Use o construtor de gráfico para traçar um gráfico de linha (com barras
de erro) da atratividade da data com consumo de álcool no eixo x e linhas coloridas
diferentes para representar machos e fêmeas.

Depois de ter criado as duas variáveis de codificação, você pode criar uma terceira
variável na qual colocar os valores da variável dependente. Chame essa variável
Attractiveness e use a opção Labels para dar-lhe o nome mais completo de
Attractiveness of Date. Neste exemplo, existem duas variáveis independentes e
diferentes participantes foram utilizados em cada condição: o procedimento de
ANOVA fatorial geral no SPSS foi projetado para analisar esse projeto. Para acessar a
caixa de diálogo principal, selecione
A caixa de diálogo resultante (Figura 13.6) seleciona a variável dependente Através da
lista de variáveis no lado esquerdo e arrasta-a para o espaço rotulado Variável
Dependente (ou clique em). No espaço rotulado Fator Fixo (s), precisamos colocar
quaisquer variáveis independentes relevantes para a análise. Selecione Alcohol and
Gender na lista de variáveis (para selecionar essas variáveis simultaneamente,
pressione Ctrl ou Cmd em um Mac, enquanto clica nas variáveis) e arraste-as para a
caixa Fator Fixo (ou clique em ). Existem vários outros espaços que estão disponíveis
para realizar análises mais complexas, como ANOVA de fatores aleatórios (os leitores
interessados devem consultar Jackson & Brashers, 1994) e ANCOVA fatorial, que
estende os princípios descritos no início deste capítulo para incluir uma covariável
(como no capítulo anterior).

Interações gráficas

Uma vez que as variáveis relevantes foram selecionadas, você pode clicar
para acessar a caixa de diálogo na Figura 13.7. Esta caixa permite que você selecione
gráficos de linha de seus dados e estes gráficos são muito úteis para interpretar os
efeitos de interação (no entanto, realmente devemos traçar gráficos dos meios antes
que os dados sejam analisados). Temos apenas duas variáveis independentes, e o
gráfico mais útil é aquele que mostra a interação entre essas variáveis (o gráfico que
exibe níveis de uma variável independente contra a outra). Neste caso, o gráfico de
interação nos ajudará a interpretar o efeito combinado do gênero e do consumo de
álcool. Selecione Álcool na lista de variáveis no lado esquerdo da caixa de diálogo e
arraste-o para o espaço denominado Eixo horizontal (ou clique em ). No espaço
denominado Separar Linhas, coloque a variável independente restante, Gênero. Não
importa qual a maneira em que as variáveis são plotadas; você deve usar seu critério
quanto a qual forma o gráfico mais sensível. Quando você moveu as duas variáveis
independentes para a caixa apropriada, clique e este gráfico será adicionado à
lista na parte inferior da caixa. Você pode traçar toda uma variedade de gráficos, e se
você tivesse uma terceira variável independente, você teria a opção de traçar gráficos
diferentes para cada nível daquela terceira variável, especificando uma variável sob o
título Placas separadas. Quando você terminar de especificar gráficos, clique em
para retornar à caixa de diálogo principal.

Contrastes

Vimos no Capítulo 11 que é útil acompanhar ANOVA com contrastes que quebram os
principais efeitos e nos dizem onde estão as diferenças entre os grupos. Para ANOVA
unidirecional, o SPSS possui um procedimento para inserir códigos que definem os
contrastes que queremos fazer. No entanto, para ANOVA de duas vias, não existe tal
facilidade (embora possa ser feita usando sintaxe - veja Oliver Twisted) e, em vez disso,
estamos restritos a fazer um dos vários contrastes padrão. Esses contrastes padrão são
descritos na Tabela 11.6.

Podemos usar contrastes padrão para este exemplo. O efeito do gênero tem apenas
dois níveis, portanto, não precisamos de contrastes para esse efeito principal. O efeito
do álcool tem três níveis: nenhum, 2 pintas e 4 pintas. Podemos selecionar um
contraste simples para esta variável e usar a primeira categoria como categoria de
referência. Isso compararia o grupo de 2 pinos no grupo sem álcool e, em seguida,
compare a categoria de 4 pinos ao grupo sem álcool. Como tal, os grupos de álcool
ficariam em comparação com o grupo sem álcool. Podemos também selecionar um
contraste repetido. Isso compararia o grupo de 2 pintas com o não álcool e, em
seguida, o grupo de 4 pintas para o grupo de 2 pinos (para que ele se mova através dos
grupos que comparam cada grupo com o anterior). Mais uma vez, isso pode ser útil.
Podemos também fazer um contraste de Helmert, que compara cada categoria em
relação a todas as categorias subseqüentes, então, neste caso, compararia o grupo
sem álcool com as categorias restantes (isto é, todos os grupos que consumiram
álcool) e depois passaria para o 2 -pintar categoria e comparar isso com a categoria de
4-pintas. Qualquer um destes seria bom, mas eles nos dão contrastes apenas para os
principais efeitos. Na realidade, na maioria das vezes queremos contrastes para o
nosso termo de interação, e eles só podem ser obtidos através da sintaxe (parece que
você pode ter que olhar para Oliver Twisted, afinal).
Para obter contrastes pelo efeito principal do álcool, clique na caixa de diálogo
principal. Utilizamos a caixa de diálogo Contraste antes na Seção 12.4.5., Então
consulte novamente essa seção para ajudá-lo a selecionar um contraste Helmert para
a variável álcool. Uma vez que os contrastes foram selecionados (Figura 13.8), clique
em para retornar à caixa de diálogo principal.

Testes post hoc

A caixa de diálogo para testes post hoc é obtida clicando na caixa de diálogo principal
(Figura 13.9). A variável Sexo tem apenas dois níveis e, portanto, não precisamos
selecionar testes post hoc para essa variável (porque quaisquer efeitos significativos
podem refletir apenas a diferença entre machos e fêmeas). No entanto, havia três
níveis da variável Álcool (sem álcool, 2 litros e 4 pintas); portanto, podemos realizar
testes post hoc (embora lembre-se que, normalmente, você realizaria contrastes ou
testes post hoc, e não ambos). Primeiro, você deve selecionar a variável Álcool na caixa
denominada Fatores e transferi-la para a caixa rotulada Testes pós-atendimento para:
Minhas recomendações para as quais os procedimentos ad hoc para usar estão na
Seção 11.5 (e não quero repetir-me). Basta dizer que você deve selecionar aqueles na
Figura 13.9. Clique em para retornar à caixa de diálogo principal.

Bootstrapping e outras opções

Clique em para ativar a mesma caixa de diálogo Opções que vimos no capítulo
anterior (as opções são explicadas em Jane Superbrain Box 12.3). O principal é obter
meios marginais estimados ao transferir todos os efeitos para a caixa denominada
Exibir Meios para (Figura 13.10). Algumas pessoas selecionarão Testes de
Homogeneidade para produzir o teste de Levene (Seção 5.3.3.2). Você também pode
selecionar se deseja que o SPSS calcule o Beta parcial quadrado para você (consulte a
Seção 12.7).

Tal como acontece com qualquer ANOVA, a caixa de diálogo principal contém o botão
, que permite selecionar intervalos de confiança de inicialização para os meios
marginais estimados, descritivos e testes posteriores, mas não o teste F principal. O
principal uso disso é se você planeja analisar os testes post hoc, o que nós somos,
então selecione as opções descritas na Seção 5.4.3.

Uma vez que essas opções foram selecionadas, clique em para retornar à
caixa de diálogo principal, depois clique em executar a análise.
Saída da ANOVA fatorial

Teste de Levene

A saída 13.2 mostra os resultados do teste de Levene. Encontramos o teste de Levene


várias vezes antes, e tenho dúvidas sobre isso (ver Jane Superbrain, caixa 5.6); no
entanto, neste caso, o resultado não significativo (p = 0,202) sugere que a diferença de
atratividade é aproximadamente igual em todas as combinações de gênero e álcool.

A tabela ANOVA principal

A saída 13.3 é a parte mais importante da saída porque nos diz se alguma das variáveis
independentes teve efeito na variável dependente. As coisas importantes a serem
observadas na tabela são os valores de significância das variáveis independentes. A
primeira coisa a notar é que existe um efeito principal importante do álcool (porque o
valor de significância é inferior a 0,05), indicando que a quantidade de álcool
consumida afetou significativamente quem o participante tentaria conversar. Isso
significa que, em geral, quando ignoramos se o participante era masculino ou
feminino, a quantidade de álcool influenciou a seleção de seus companheiros. A
melhor maneira de ver o que isso significa é olhar para um gráfico de barras da
atratividade média em cada nível de álcool (ignorar o gênero completamente). Este
gráfico traça os meios que calculamos na Seção 13.2.5.2.

OUTPUT 13.3

A Figura 13.11 mostra que, quando você ignora o gênero, a atratividade geral do
companheiro selecionado é muito similar quando nenhum álcool já ficou bêbado e
quando 2 pintas foram bebidos (os meios desses grupos são aproximadamente iguais).
Portanto, esse efeito significativo provavelmente refletirá a queda na atratividade dos
companheiros selecionados quando 4 litros estiverem bêbados. Esta descoberta
parece indicar que uma pessoa está disposta a aceitar um companheiro menos
atraente após 4 pintas.

A próxima parte da Saída 13.3 nos informa sobre o principal efeito do gênero. Desta
vez, a relação F não é significante (p = 0,161). Esse efeito significa que, em geral,
quando ignoramos a quantidade de álcool que havia bebido, o gênero do participante
não influenciou a atratividade do parceiro que o participante selecionou. Em outras
palavras, sendo outras coisas iguais, homens e mulheres selecionaram companheiros
igualmente atraentes. O gráfico de barras (que você esperava produzir para a auto-
prova) da atratividade média dos companheiros para homens e mulheres (ignorando a
quantidade de álcool consumida) revela o significado desse efeito principal. A Figura
13.12 traça os meios que calculamos na Seção 13.2.5.1. Este gráfico mostra que a
atratividade média dos parceiros de participantes do sexo masculino e feminino foi
bastante similar (os meios são diferentes em apenas 4%). Portanto, esse efeito não
significativo reflete o fato de que a atratividade média era semelhante. Podemos
concluir que, sendo outras coisas iguais, homens e mulheres escolhem parceiros
igualmente atraentes.
Finalmente, a Saída 13.3 nos informa sobre a interação entre o efeito do gênero e o
efeito do álcool. O valor F é altamente significativo. O que isso realmente significa é
que o efeito do álcool na seleção do parceiro foi diferente para os participantes do
sexo masculino do que para as fêmeas. A saída SPSS inclui um gráfico que pedimos
(veja a Figura 13.7) que nos diz algo sobre a natureza desse efeito de interação (Figura
13.13 é uma versão mais agradável do gráfico em sua saída). Este gráfico traça os
meios marginais estimados, que você pode encontrar (juntamente com os intervalos
de confiança do bootstrap) na saída 13.4. A Figura 13.13 mostra que, para as mulheres,
o álcool tem muito pouco efeito: a atratividade de seus parceiros selecionados é
bastante estável nas três condições (como mostra a linha quase horizontal). No
entanto, para os homens, a atratividade de seus parceiros é estável quando apenas
uma pequena quantidade foi bebida, mas diminui rapidamente quando mais está
bêbado. A interação nos diz que o álcool tem poucos efeitos sobre a seleção do
parceiro até que 4 pintas tenham sido bebidos e que o efeito do álcool seja
predominante apenas em participantes do sexo masculino. Em suma, as mulheres
mantêm altos padrões na seleção de seus companheiros, independentemente do
álcool, enquanto os homens têm algumas cervejas e tentam se acasalar com qualquer
coisa nas pernas J. Este exemplo ilustra um ponto importante porque concluímos
anteriormente que o álcool afetou significativamente o quão atraente um
companheiro foi selecionado (o efeito principal do álcool); no entanto, o efeito de
interação nos diz que isso é verdade apenas em homens (as fêmeas não são afetadas).
Em geral, você não deve interpretar os principais efeitos na presença de um efeito de
interação significativo envolvendo esse efeito principal.
Contrastes

A saída 13.5 mostra os resultados do nosso contraste Helmert no efeito do álcool. Isso
nos ajuda a quebrar o efeito do álcool (na realidade, não analisaremos esse efeito
porque a interação envolvendo álcool foi significativa). O topo da tabela mostra o
contraste para Nível 1 vs. Mais tarde, que neste caso significa o grupo sem álcool em
comparação com os dois grupos de álcool. Isso prova se a média do grupo sem álcool
(63.75) é diferente da média dos grupos de 2 pinos e 4-pintas combinados ((64,69 +
46,56) / 2 = 55,625). Esta é uma diferença de 8.125 (63.75 - 55.63), que tanto a
Estimativa de Contraste como a Diferença na tabela nos dizem. O importante a ser
observado é o valor de Sig., Que nos diz se essa diferença é significativa. É, porque Sig.
é .006. Também nos contamos o intervalo de confiança para essa diferença e, por não
cruzar zero, podemos ter certeza de que, assumindo que esta amostra é uma das 95
de 100 que produz um intervalo de confiança contendo o valor verdadeiro da
diferença, a diferença real é mais do que zero (entre 2,49 e 13,76, para ser preciso).
Então, podemos concluir que o efeito do álcool é que qualquer quantidade de álcool
reduz a atratividade das datas selecionadas em comparação com quando o álcool não
é bebido. Claro que isso é enganador porque, de fato, os meios para os grupos sem
álcool e 2-pintas são bastante semelhantes (63,75 e 64,69), então 2 litros de álcool não
reduzem a atratividade das datas selecionadas. A razão pela qual a comparação é
significativa é que está testando o efeito combinado de 2 e 4 pintas, e porque 4 pintas
têm um efeito tão drástico que reduz a média geral. Este exemplo mostra por que você
precisa ter cuidado com a forma como você interpreta esses contrastes: você também
deve ter um olhar sobre o contraste restante.

A parte inferior da tabela mostra o contraste para Nível 2 versus Nível 3, que neste
caso significa o grupo de 2 pintas em comparação com o grupo de 4 pintas. Isso prova
se a média do grupo de 2 pintas (64.69) é diferente da média do grupo de 4-pintas
(46.56). Esta é uma diferença de 18.13 (64.69 - 46.56), que tanto a Estimativa de
Contraste quanto a Diferença na tabela nos dizem. Mais uma vez, o importante a ser
observado é o valor de Sig., que nos diz se essa diferença é significativa. É, porque Sig.
é .000 na tabela, que é inferior a .05. Também nós contamos o intervalo de confiança
para essa diferença e porque não é igual a zero, assumindo que esse intervalo de
confiança é um dos 95 de 100 que contém o valor verdadeiro da diferença, a diferença
real é mais do que zero (entre 11,62 e 24,63, para ser preciso). Isso nos diz que ter 4
pintas reduziu significativamente a atratividade das datas selecionadas em
comparação com apenas 2 pintas.
Análise de efeitos simples

Uma técnica chamada análise de efeitos simples pode ser usada para quebrar os
efeitos de interação. Esta análise analisa basicamente o efeito de uma variável
independente em níveis individuais da outra variável independente. Assim, por
exemplo, em nossos dados de cerveja, podemos fazer uma análise de efeitos simples,
analisando o efeito do gênero em cada nível de álcool. Isso significaria levar a
atratividade média da data selecionada pelos homens e compará-la com as mulheres
após as bebidas, depois fazer a mesma comparação para 2 pintas e, finalmente, para 4
pintas. Outra maneira de ver isso é dizer que comparamos cada triângulo com o círculo
correspondente na Figura 13.13: com base no gráfico, podemos esperar não encontrar
nenhuma diferença depois de nenhum álcool e após 2 pintas (em ambos os casos, o
triângulo e o círculo estão localizados em aproximadamente a mesma posição), mas
esperamos uma diferença após 4 pintas (porque o círculo e o triângulo estão bastante
distantes) . A maneira alternativa de fazê-lo seria comparar a atratividade média após
não álcool, 2 pintas e 4 pintas para os homens e, em seguida, em uma análise
separada, faça o mesmo, mas para as mulheres. (Esta análise seria como fazer uma
ANOVA unidirecional sobre o efeito do álcool nos homens e, em seguida, fazer uma
ANOVA de sentido único diferente para o efeito do álcool nas mulheres). Essas análises
não podem ser executadas através das caixas de diálogo usuais, mas eles podem ser
executados usando sintaxe - veja SPSS Dica 13.1.

Análise de efeitos simples no SPSS


Infelizmente, as análises de efeitos simples não podem ser feitas através das caixas de
diálogo e, em vez disso, você precisa usar a sintaxe SPSS (consulte a Seção 3.9 para
lembrá-lo sobre a janela de sintaxe). A sintaxe que você precisa usar neste exemplo é:

GLM Atratividade por gênero álcool / EMMEANS = TABELAS (gênero * álcool)


COMPARAR (gênero).

Essa sintaxe inicia a ANOVA especificando o resultado ou a variável dependente


(Atratividade) e, em seguida, o comando por seguido é seguido por nossas variáveis
independentes (gênero e álcool). O início da linha / EMMEANS especifica os efeitos
simples. Por exemplo, COMPARAR (gênero) examinará o efeito do gênero em cada
nível de álcool. Essa sintaxe para analisar o efeito do gênero em diferentes níveis de
álcool é armazenada em um arquivo chamado GogglesSimpleEffects.sps para que você
olhe se você não deseja ir ao esforço de digitar as duas linhas acima. Abra este arquivo
(certifique-se de ter Goggles.sav carregado no editor de dados) e execute a sintaxe. A
saída que você obtém será a mesma que para a análise principal no capítulo, mas
conterá uma tabela extra no final contendo os efeitos simples (Saída 13.6). SAÍDA 13.6.
SAÍDA 13.6
Olhando para os valores de significância para cada efeito simples, parece que não
houve diferença significativa entre homens e mulheres no nível 1 de álcool (isto é, sem
álcool), p = 0,18 ou no nível 2 de álcool (2 pintas) p = .34, mas houve uma diferença
muito significativa (p <.001) no nível 3 de álcool (4 pintas, que a partir do gráfico
reflete o fato de que a média para homens é consideravelmente menor que para as
mulheres).

Análise post hoc

Os testes hoc hoc de Bonferroni (Saída 13.7) quebram o principal efeito do álcool e
podem ser interpretados como se uma ANOVA unidirecional tivesse sido conduzida na
variável Álcool (ou seja, os efeitos relatados para o álcool são colapsados em relação
ao gênero). Os testes mostram (tanto pelo significado quanto se os intervalos de
confiança do bootstrap cruzam a zero) que, quando os participantes tinham bebido
sem álcool ou 2 litros de álcool, eles selecionaram companheiros igualmente
atraentes, p = 1.00 (este é o máximo que p pode ser, o que reflete o fato de que os
meios são quase idênticos). No entanto, depois de 4 pinos terem sido consumidos, os
participantes selecionaram parceiros significativamente menos atraentes do que após
os dois copos (p <0,001) e sem álcool (p <0,001). O teste REGWQ (Saída 13.8) confirma
que os meios das condições de placebo e 2-pints eram iguais, enquanto a média do
grupo de 4-pintas era diferente. Deve-se notar novamente que normalmente não
interpretaremos esses testes post hoc porque os principais efeitos não são
interessantes quando existe uma interação significativa envolvendo esse efeito
principal (como existe aqui). Em resumo, devemos concluir que o álcool tem um efeito
sobre a atratividade dos companheiros selecionados. Em geral, após uma dose
relativamente pequena de álcool (2 pintas), os seres humanos ainda estão
incontrolados em seus julgamentos e os níveis de atratividade dos parceiros escolhidos
são consistentes com um grupo controle (sem álcool consumido). No entanto, após
uma maior dose de álcool, a atratividade dos companheiros escolhidos diminui
significativamente. Este é o efeito de cerveja-goggles! Mais interessante, a interação
mostra uma diferença de gênero no efeito cerveja-óculos. Especificamente, parece
que os homens são significativamente mais propensos a escolher parceiros menos
atraentes quando embebidos. As mulheres, em comparação, conseguem manter seus
padrões apesar de estarem bêbadas. O que ainda não sabemos é se as mulheres se
tornarão suscetíveis ao efeito de óculos de cerveja em doses mais elevadas de álcool.

ANOVA Fatorial
ANOVA independente de duas vias compara vários meios quando existem duas
variáveis independentes e diferentes entidades foram usadas em todas as condições
experimentais. Por exemplo, se você quisesse saber se diferentes métodos de ensino
funcionavam melhor para diferentes assuntos, você poderia levar estudantes de
quatro cursos (Psicologia, Geografia, Administração e Estatística) e atribuí-los ao
ensino baseado em conferências ou baseado em livros. As duas variáveis são o curso
eo método de ensino. O resultado pode ser a marca de fim de ano (como uma
porcentagem).

Você pode testar a homogeneidade de variância usando a tabela rotulada Levene's


Test: se o valor na coluna rotulada Sig. é inferior a 0,05, então a suposição é violada.

Na tabela rotulada Tests of Between-Subjects Effects, veja a coluna intitulada Sig. para
todos os principais efeitos e interações; se o valor for inferior a 0,05, o efeito é
significativo.

Para interpretar uma interação significativa, veja um gráfico de interação ou realize


análises de efeitos simples.

Você não precisa interpretar os principais efeitos se um efeito de interação


envolvendo essa variável for significativo.

Se você interpretar os efeitos principais, consulte os testes post hoc para ver quais
grupos diferem: significância é mostrada pelos valores nas colunas rotuladas Sig.
menor que 0,05 e intervalos de confiança do bootstrap que não contêm zero.

Teste os mesmos pressupostos do que para qualquer modelo linear (ver Capítulo 5).

Interpretando gráficos de interação

Nós já examinamos um gráfico de interação quando interpretamos a análise neste


capítulo. A chave para a compreensão das interações é a capacidade de interpretar os
gráficos de interação. No exemplo neste capítulo, usamos a Figura 13.13 para concluir
que a interação provavelmente refletiu o fato de que homens e mulheres escolheram
datas igualmente atraentes após o não álcool e 2 pintas, mas que em padrões de
homens de 4 litros caiu significativamente mais do que as mulheres. Imagine que
obtivemos o perfil dos resultados mostrados na Figura 13.14; você acha que ainda
teríamos um efeito de interação significativo?
Este perfil de dados provavelmente também daria origem a um termo de interação
significativo porque, embora a atratividade das datas masculinas e femininas seja
similar após o álcool e 4 litros de álcool, há uma grande diferença depois de 2 pintas.
Isso reflete um cenário em que o efeito de cerveja-óculos é igualmente grande em
homens e mulheres após 4 pintas (e não existe após nenhum álcool), mas chuta mais
rápido para os homens: a atratividade de suas datas cai após 2 pinos, enquanto as
mulheres mantenha seus padrões até 4 pintas (no momento em que felizmente
namorariam uma fumaça não lavada). Vamos tentar outro exemplo. Existe uma
interação significativa na Figura 13.15? Para os dados da Figura 13.15, é pouco
provável que seja uma interação significativa porque o efeito do álcool é o mesmo
para homens e mulheres. Assim, tanto para homens como para mulheres, a
atratividade de suas datas depois de nenhum álcool é bastante alta, mas após 2 pintas
todos os tipos caem por uma quantidade similar (a inclinação das linhas masculina e
feminina é aproximadamente a mesma). Após 4 pintas, há uma queda adicional e,
novamente, essa queda é aproximadamente a mesma em homens e mulheres (as
linhas novamente inclinam-se com o mesmo ângulo). O fato de que a linha para os
homens é menor do que para as mulheres reflete apenas o fato de que, em todas as
condições, os homens têm padrões mais baixos do que os seus homólogos femininos:
isso reflete o principal efeito do gênero (ou seja, os homens geralmente escolheu
datas menos atractivas do que mulheres em todos os níveis de álcool). Há dois pontos
gerais que podemos fazer a partir desses exemplos:

1. Linhas não paralelas em um gráfico de interação mostram interações


significativas. No entanto, isso não significa que as linhas não paralelas sempre
refletem efeitos de interação significativos: depende de como as linhas não são
paralelas.

2. Se as linhas em um gráfico de interação cruzarem, obviamente, eles não são


paralelos e isso pode ser um desdobramento que você tem uma possível
interação significativa. No entanto, se as linhas do gráfico de interação cruzar
não é sempre o caso de a interação ser significativa.
Uma outra complicação é que às vezes as pessoas desenham gráficos de barras em vez
de gráficos de linhas. A Figura 13.16 mostra alguns gráficos de barras de interações
entre duas variáveis independentes. Os painéis (a) e (b) realmente exibem os dados do
exemplo usado neste capítulo (por que não ter uma chance de traçá-los?). Como você
pode ver, existem duas maneiras de apresentar os mesmos dados: o painel (a) mostra
os dados quando os níveis de álcool são colocados ao longo do eixo x e barras de cores
diferentes são usadas para mostrar meios para machos e fêmeas e painel (b) mostra o
cenário oposto onde o gênero é plotado no eixo x e diferentes cores distinguem a dose
de álcool. Ambos os gráficos mostram um efeito de interação. O que você procura é
que as diferenças entre barras coloridas sejam diferentes em diferentes pontos ao
longo do xaxis. Então, para o painel (a), você olharia para a diferença entre as barras
azul claro e azul escuro sem álcool e, em seguida, olhe para 2 pintas e pergunte: "A
diferença entre as barras é diferente de quando eu não olho para álcool? "Neste caso,
as barras azul-escura e azul-clara parecem as mesmas sem álcool do que em 2 pintas:
portanto, sem interação. No entanto, você passaria a olhar para 4 pintas, e você
perguntaria novamente: "A diferença entre as barras azul claro e azul escuro é
diferente das outras condições?" Neste caso a resposta é sim: sem álcool e 2 pintas, as
barras azul claro e azul escuro inham aproximadamente a mesma altura, mas em 4
pintas, a barra azul escuro é muito maior do que a luz. Isso mostra uma interação: o
padrão de respostas muda em 4 pintas. Painel (b) mostra a mesma coisa, mas traçou o
contrário. Mais uma vez, observamos o padrão de respostas. Então, primeiro olhamos
para os homens e vemos que o padrão é que as duas primeiras barras são da mesma
altura, mas a última barra é muito mais curta. O efeito de interação é mostrado pelo
fato de que, para as mulheres, há um padrão diferente: as três barras têm
aproximadamente a mesma altura.
Mais uma vez, eles exibem os mesmos dados de duas maneiras diferentes, mas são
dados diferentes do que o que usamos neste capítulo. Primeiro, vejamos o painel (c):
para os dados sem álcool, a barra escura é um pouco maior que a luz; movendo-se
para os dados de 2 pinos, a barra escura também é um pouco mais alta do que a barra
de luz; e, finalmente, para os dados de 4 pinos, a barra escura é novamente maior do
que a luz. Em todas as condições, o mesmo padrão é mostrado - a barra azul escuro é
um pouco maior do que a azul clara (ou seja, as fêmeas escolhem datas mais atrativas
do que os homens, independentemente do consumo de álcool) - portanto, não há
interação. Olhando para o painel (d), vemos um resultado semelhante. Para os
homens, o padrão é que as classificações de atratividade caem à medida que mais
álcool é bêbado (as barras diminuem de altura) e, em seguida, para as mulheres,
vemos o mesmo padrão: as classificações caem quando mais está bêbado. Isso
novamente é indicativo de nenhuma interação: a mudança de atratividade devido ao
álcool é semelhante em homens e mulheres.

Cálculo de tamanhos de efeito

Como vimos em capítulos anteriores (por exemplo, seção 12.7), podemos obter o SPSS
para produzir o Beta parcial ao quadrado, η2. No entanto, você é bem informado, por
razões explicadas nessas outras seções, para usar omega quadrado (ω2). O cálculo de
ômega quadrado torna-se um pouco mais pesado em projetos fatoriais ("um pouco" é
uma das minhas subentendências características). Howell (2012), como sempre, faz
um trabalho maravilhoso de explicar as complexidades de tudo (e tem uma ótima
tabela que resume os vários componentes para uma variedade de situações).
Condensando tudo isso, vou dizer que precisamos primeiro calcular um componente
de variância para cada um dos efeitos (os dois efeitos principais e o termo de
interação) e o erro, e depois usá-los para calcular os tamanhos de efeitos para cada
um. Se chamamos o primeiro efeito principal A, o segundo efeito principal B e o efeito
de interação A × B, então os componentes de variância para cada um deles são
baseados nos quadrados médios de cada efeito e nos tamanhos de amostra em que se
baseiam:

Nessas equações, a é o número de níveis da primeira variável independente, b é o


número de níveis da segunda variável independente e n é o número de pessoas por
condição. Vamos calcular estes para nossos dados. Precisamos examinar a saída 13.3
para descobrir os quadrados médios para cada efeito e para o termo de erro. Nossa
primeira variável independente foi o álcool. Isso teve três níveis (daí a = 3) e teve um
quadrado médio de 1666.146. Nossa segunda variável independente foi o gênero, que
teve dois níveis (daí b = 2) e um quadrado médio de 168.75. O número de pessoas em
cada grupo era 8 e o quadrado médio residual era 83.036. Portanto, nossas equações
tornam-se:

Também precisamos estimar a variabilidade total e esta é apenas a soma dessas outras
variáveis e o quadrado médio residual:
O tamanho do efeito é então simplesmente a estimativa de variância para o efeito em
que você está interessado, dividido pela estimativa de variância total:

Como tal, para o principal efeito do álcool, obtemos:

Para o principal efeito do gênero, obtemos:

Para a interação de gênero e álcool, obtemos:

Para tornar esses valores comparáveis a r podemos levar a raiz quadrada, o que nos dá
efeitos tamanhos de .59 para álcool, .09 para gênero e .45 para o termo de interação.
Como tal, os efeitos do álcool e a interação são bastante amplos, mas o efeito do
gênero, que não foi significativo na análise principal, é muito pequeno, de fato (quase
zero, de fato). Também é possível calcular os tamanhos de efeitos para a nossa análise
de efeitos simples (se você ler a Seção 13.5.4.). Esses efeitos têm 1 grau de liberdade
para o modelo (o que significa que eles estão comparando apenas duas coisas) e
nestas situações F pode ser convertido em r usando a seguinte equação (que apenas
usa a relação F e os graus de liberdade residuais):
Olhando para a Dica 13.1 do SPSS, podemos ver que obtivemos razões F de 1.88, 0.92
e 23.05 para os efeitos do gênero sem álcool, 2 litros e 4 pintas, respectivamente. Para
cada um destes, os graus de liberdade eram 1 para o modelo e 42 para o residual.
Portanto, obtemos os seguintes tamanhos de efeito:

Portanto, o efeito do gênero é muito pequeno tanto em álcool como em 2 litros, mas
torna-se grande em 4 litros de álcool.

Relatando os resultados da ANOVA de dois sentidos

Tal como acontece com as outras ANOVAs que encontramos, devemos relatar os
detalhes da relação F e os graus de liberdade a partir dos quais foi calculado. Para os
efeitos do álcool e da interação álcool x gênero, os graus de liberdade modelo foram
dfM = 2, mas para o efeito do gênero os graus de a liberdade era apenas dfM = 1. Para
todos os efeitos, os graus de liberdade para os resíduos eram dfR = 42. Podemos,
portanto, relatar os três efeitos dessa análise da seguinte maneira:

1. Houve um efeito principal significativo da quantidade de álcool consumida na


boate sobre a atratividade do companheiro selecionado, F (2, 42) = 20,07, p
<0,001, ω2 = 0,35. Os testes post hoc de Bonferroni revelaram que a
atratividade das datas selecionadas foi significativamente menor após 4 pintas
do que ambas após 2 pintas e sem álcool (ambos ps <0,001). Não houve
significados diferença na atratividade de datas após 2 litros e sem álcool, p = 1.

2. Houve um efeito principal não significativo do gênero sobre a atratividade dos


companheiros selecionados, F (1, 42) = 2,03, p = 0,161, ω2 = 0,009.

3. Houve uma interação significativa entre a quantidade de álcool consumida eo


gênero da pessoa que seleciona um companheiro, sobre a atratividade do
parceiro selecionado, F (2, 42) = 11,91, p <0,001, ω2 = 0,20. Este efeito indica
que machos e fêmeas foram afetados de maneira diferente pelo álcool.
Especificamente, a atratividade dos parceiros foi semelhante nos homens (M =
66,88, SD = 10,33) e as mulheres (M = 60,63, SD = 4,96) após o não álcool e 2
pintas (machos, M = 66,88, DP = 12,52, fêmeas, M = 62,50, SD = 6,55); no
entanto, a atratividade dos parceiros selecionados pelos homens (M = 35,63,
SD = 10,84) foi significativamente menor do que os selecionados pelas
mulheres (M = 57,50, SD = 7,07) após 4 pintas.
Desenhos de medidas repetidas (GLM 4) – Capítulo 14

O que este capítulo me falará?


Aos 15 anos, fiquei de férias com meu amigo Mark (o baterista) na Cornwall. Eu tinha
um salmão muito decente por esta etapa (hoje em dia, eu apenas queria ter cabelos
suficientes para crescer um salmonete) e adquiri uma coleção respeitável de t-shirts de
heavy metal de vários shows. Nós estávamos caminhando ao longo dos penhascos
uma noite ao anoitecer relembrando nossos tempos em Andrómeda. Chegamos à
conclusão de que a única coisa que não tínhamos desfrutado com essa banda foi
Malcolm e que talvez devêssemos reformá-la com um guitarrista diferente.1 Como
estava pensando em quem poderíamos tocar violão, Mark apontou o cego claramente
óbvio : Eu tocava guitarra. Então, quando chegamos em casa, Scansion nasceu.2 Como
cantora, guitarrista e compositora, escrevi algumas músicas. Eu me afastei de escrever
sobre moscas e me deparar com a inutilidade da existência, morte, traição e assim por
diante. Tivemos a duvidosa honra de ser revisado na revista de música Kerrang! (em
uma avaliação ao vivo, eles nos chamaram de "twee", o que realmente não é o que
você quer ser chamado se você estiver tentando fazer música tão pesada que rompa
as entranhas de Satanás). O nosso destaque, no entanto, foi um show no famoso
Marquee Club em Londres (este clube fechou, não como resultado de nós jogar lá, eu
me apresento em adicionar, mas no seu dia começou as carreiras de pessoas como
Jimi Hendrix, o Quem, Iron Maiden e Led Zeppelin) .3 Este foi o maior show de nossa
carreira e foi essencial que jogássemos como nunca antes. Como aconteceu, nós
fizemos: eu corri no palco, caí e, no processo, desordei minha guitarra além do
reconhecimento e quebrou o fecho de correr na minha calça. Passei todo o show fora
de sintonia e espalhei a águia para evitar que minhas calças caíssem. Como eu disse,
nunca tinha jogado assim antes. Estávamos bastante obcecados com a comparação de
como jogamos em shows diferentes. Eu não sabia sobre as estatísticas, então (dias
felizes), mas, se eu tivesse, eu teria percebido que poderíamos nos avaliar e comparar
as classificações médias para shows diferentes; porque sempre seríamos os que
classificariam os shows, isso seria um projeto de medidas repetidas, então precisamos
de uma ANOVA de medidas repetidas para comparar esses meios. É sobre o que trata
este capítulo; Espero que não faça cair nossas calças.

Introdução ao desenho de medidas repetidas


Até agora, neste livro, ao analisar os meios de comparação, nos concentramos em
situações em que diferentes entidades contribuem para diferentes meios; Por
exemplo, diferentes pessoas participam de diferentes condições experimentais. Não
precisa ser pessoas diferentes, podem ser plantas diferentes, empresas, parcelas de
terra, cepas virais, cabras ou mesmo diferentes ornitorrincos de pato (ou seja o que for
plural). Eu ignorei completamente as situações em que as mesmas pessoas (plantas,
cabras, hamsters, líderes galácticos verdes de sete olhos do espaço ou o que quer que
seja) contribuem para os diferentes meios. Eu demorei o tempo suficiente, e agora vou
levá-lo através do que acontece quando fazemos ANOVA em dados de medidas
repetidas.
"Medidas repetidas" é um termo usado quando as mesmas entidades participam em
todas as condições de uma experiência ou fornecem dados em vários pontos de
tempo. Por exemplo, você pode testar os efeitos do álcool no gozo de uma festa.
Algumas pessoas podem beber muito álcool sem realmente sentir as conseqüências,
enquanto outras, como eu, têm apenas para cheirar uma cerveja de cerveja e eles
começam a bater no chão agitando seus braços e pernas ao redor gritando 'Olhe para
mim, eu' Andy, o rei do mundo perdido dos haddocks '. Portanto, é importante
controlar as diferenças individuais na tolerância ao álcool, e isso pode ser alcançado
testando as mesmas pessoas em todas as condições do experimento: os participantes
poderiam receber um questionário avaliando o gozo da festa depois de terem
consumido 1 litro , 2 pintas, 3 pintas e 4 pintas de lager. Há muitas maneiras diferentes
de se referir a esse tipo de design (Figura 14.2).

Vimos no Capítulo 1 que esse tipo de design possui várias vantagens; No entanto, no
Capítulo 11, vimos que a precisão do teste F na ANOVA depende do pressuposto de
que os escores em diferentes condições são independentes (ver Seção 11.3). Quando
são utilizadas medidas repetidas, esta suposição é violada: os resultados obtidos em
diferentes condições experimentais provavelmente estarão relacionados porque eles
são provenientes das mesmas entidades. Como tal, o teste F convencional não terá
precisão. A relação entre os escores em diferentes condições de tratamento significa
que temos que fazer uma suposição adicional; de forma simplista, assumimos que a
relação entre pares de condições experimentais é semelhante (ou seja, o nível de
dependência entre condições experimentais é aproximadamente igual). Esta suposição
é chamada de suposição de esfericidade, que, confie em mim, é uma dor na
extremidade para se pronunciar quando você está dando palestras de estatísticas às 9
da manhã em uma segunda-feira.

A suposição de esfericidade
A suposição de esfericidade pode ser comparada à hipótese de homogeneidade de
variância na ANOVA entre grupos. A esfericidade (denotada por ε e às vezes referida
como circularidade) é uma condição mais geral da simetria composta. A simetria do
composto é verdadeira quando ambas as variâncias em todas as condições são iguais
(isto é o mesmo que a homogeneidade da hipótese de variância em projetos entre
grupos) e as covariâncias entre pares de condições são iguais. Então, assumimos que a
variação dentro das condições experimentais é bastante similar e que nenhuma das
duas condições é mais dependente do que outras duas. Embora a simetria composta
mostrou ser uma condição suficiente para ANOVA usando dados de medidas repetidas,
não é uma condição necessária. A esfericidade é uma forma menos restritiva de
simetria composta e refere-se à igualdade de variâncias das diferenças entre os níveis
de tratamento. Então, se você tomasse cada par de níveis de tratamento e calculasse
as diferenças entre cada par de pontuação, então é necessário que essas diferenças
tenham variâncias aproximadamente iguais. Como tal, você precisa de pelo menos três
condições para que a esfericidade seja um problema.

Como a esfericidade é medida?


Se nós estivéssemos a verificar a suposição de esfericidade à mão, o que, aliás, apenas
um lunático completo faria, então poderíamos começar calculando as diferenças entre
pares de pontuações em todas as combinações dos níveis de tratamento. Uma vez que
isso foi feito, poderíamos calcular a variação dessas diferenças. A Tabela 14.1 mostra
os dados de uma experiência com três condições. As diferenças entre pares de
pontuações são calculadas para cada participante e a variância para cada conjunto de
diferenças é calculada. A esfericidade é atendida quando essas variações são
aproximadamente iguais. Para esses dados, a esfericidade será realizada quando:
Nesses dados, há desvio da esfericidade porque a variância das diferenças entre as
condições A e B (15.7) é maior que a variância das diferenças entre A e C (10.3) e entre
B e C (10.7). No entanto, esses dados têm circularidade local (ou esfericidade local)
porque duas das variâncias de diferenças são muito similares. Portanto, a suposição de
esfericidade foi atendida para todas as comparações múltiplas envolvendo essas
condições (para uma discussão de circularidade local, ver Rouanet & Lépine, 1970). O
desvio da esfericidade nos dados na Tabela 14.1 não parece muito severo (todas as
variações são aproximadamente iguais), mas podemos avaliar se um desvio é
suficientemente severo para justificar a ação?

Avaliando a gravidade das partidas da esfericidade.

A esfericidade pode ser avaliada usando o teste de Mauchly, que testa a hipótese de
que as variações das diferenças entre as condições são iguais. Portanto, se a estatística
de teste de Mauchly é significativa (ou seja, tem um valor de probabilidade inferior a
0,05), concluímos que existem diferenças significativas entre as variâncias de
diferenças e, portanto, a condição de esfericidade não é atendida. Se, no entanto, a
estatística de teste de Mauchly não é significativa (ou seja, p> .05), então é razoável
concluir que as variações de diferenças são aproximadamente iguais. Então, em suma,
se o teste de Mauchly é significativo, então devemos desconfiar dos Razões F
resultantes. No entanto, como qualquer teste de significância, o teste de Mauchly
depende do tamanho da amostra: em amostras grandes, pequenos desvios da
esfericidade podem ser significativos e, em amostras pequenas, grandes violações
podem ser não significantes (ver Jane Superbrain Box 5.5).

Qual é o efeito de violar a suposição de esfericidade?

Rouanet e Lépine (1970) forneceram uma descrição detalhada da validade do F-ratio


sob violações da hipótese de esfericidade (ver também Mendoza, Toothaker e Crain,
1976). Eu resumi (Field, 1998) suas descobertas em um artigo em um boletim
informativo muito obscuro que ninguém pode acessar (veja Oliver Twisted). A
mensagem take-home é que, para a relação F que usamos nessas situações, a
esfericidade cria uma perda de poder e uma estatística de teste que não possui a
distribuição que deveria ter (ou seja, uma distribuição F).

A esfericidade também causa algumas complicações divertidas para os testes pós-hoc


(Jane Superenerin Box 14.1). Se você não quer se preocupar com o que essas
complicações são, então, a mensagem de levar a casa é que, quando a esfericidade é
violada, o método de Bonferroni parece ser geralmente o mais robusto das técnicas
univariadas, especialmente em termos de poder e controle da Taxa de erro de tipo I.
Quando a esfericidade definitivamente não é violada, o teste de Tukey pode ser usado.

O que você faz se violar a esfericidade?


Você pode pensar que, se seus dados violarem a suposição de esfericidade, então você
precisa ter um colapso nervoso, ou reservar para ver um conselheiro ou algo assim,
mas na verdade isso significa que precisamos ajustar os graus de liberdade para
quaisquer Ratios F afetados pela violação. Você pode estimar a esfericidade de várias
maneiras (veja abaixo), resultando em um valor que é 1 quando seus dados são
esféricos e menos de 1 quando não são. Você multiplica os graus de liberdade por esta
estimativa, então, quando você tem esfericidade, os graus de liberdade não mudam
(porque você os multiplica em 1), mas quando você não diminui os graus de liberdade
(porque você os multiplica por um valor Menos de 1). Menores graus de liberdade
tornam o valor p associado ao F-ratio menos significativo. Portanto, ajustando os graus
de liberdade, tornamos a relação F mais conservadora quando a esfericidade é violada.
Ao fazê-lo, controlamos a taxa de erro Tipo I, em que eu estava entrando em pânico na
seção anterior.
Os graus de liberdade são ajustados usando estimativas de esfericidade defendidas por
Greenhouse e Geisser (1959) e Huynh e Feldt (1976). O cálculo dessas estimativas está
além do escopo deste livro (os leitores interessados devem consultar Girden, 1992);
precisamos saber apenas que as três estimativas diferem. A estimativa Greenhouse-
Geisser (geralmente denotada como ) varia entre 1 / (k-1), onde k é o número de
condições de medidas repetidas e 1. Por exemplo, em uma situação em que existem
cinco condições, o limite inferior de será 1 / (5 - 1), ou .25 (conhecida como estimativa
do limite inferior da esfericidade).
Huynh e Feldt (1976) relataram que quando a estimativa Greenhouse-Geisser é maior
que 0,75, a correção é muito conservadora, e isso também pode ser verdade quando a
estimativa da esfericidade é tão alta como 0,90 (Collier, Baker, Mandeville e Hayes ,
1967). Huynh e Feldt, portanto, propuseram sua própria correção menos conservadora
(geralmente denotada como). No entanto, superestima a esfericidade (Maxwell &
Delaney, 1990). Muitos autores recomendam que, quando as estimativas de
esfericidade forem maiores do que 0,75, a estimativa de Huynh-Feldt deve ser usada,
mas quando a estimativa da esfericidade de Greenhouse-Geisser é inferior a 0,75 ou
não se sabe nada sobre a esfericidade em toda a correção da estufa-geisseria ser
usado (Barcikowski & Robey, 1984; Girden, 1992; Huynh & Feldt, 1976).
Alternativamente, Stevens (2002) sugere tomar uma média das duas estimativas e
ajustar o df por esta média. Veremos como esses valores são usados no devido tempo.
Dado que as violações da esfericidade afetam a precisão de F, uma segunda opção
quando você tem dados que violam a esfericidade é usar um teste diferente de F. A
primeira possibilidade é usar estatísticas de teste multivariante (MANOVA), porque
não dependem da suposição de esfericidade (ver O'Brien & Kaiser, 1985). O MANOVA
é abordado no Capítulo 16, mas o SPSS produz estatísticas de testes multivariados no
contexto da ANOVA de medidas repetidas. No entanto, pode haver trade-offs no poder
entre esses testes univariáveis e multivariados (ver Jane Superbrain Box 14.2). Uma
possibilidade mais complexa é analisar os dados como um modelo multinível (descrito
detalhadamente no Capítulo 20).

Teoria das medidas repetidas de uma via ANOVA


Em uma ANOVA de medidas repetidas, o efeito do nosso experimento é mostrado na
variância dentro do participante (em vez de na variância entre grupos). Lembre-se que,
em ANOVA independente (Seção 11.2), a variância dentro do participante é a variância
residual (SSR); é a variância criada pelas diferenças individuais no desempenho. Esta
variância não está contaminada pelo efeito experimental, pois qualquer manipulação
que realizamos tenha sido realizada em diferentes entidades. No entanto, quando
realizamos nossa manipulação experimental nas mesmas entidades, a variância dentro
do participante será composta de duas coisas: o efeito de nossa manipulação e, como
antes, as diferenças individuais no desempenho. Assim, parte da variação dentro do
participante vem dos efeitos de nossa manipulação experimental: fizemos coisas
diferentes em cada condição experimental para os participantes e, portanto, a
variação nas pontuações de um indivíduo será em parte devido a essas manipulações.
Por exemplo, se todos classificam mais alto em uma condição do que outro, é razoável
assumir que isso aconteceu porque fizemos algo diferente aos participantes nessa
condição em comparação com os outros. Fazendo o mesmo para cada participante
dentro de uma condição específica, qualquer variação que não pode ser explicada pela
manipulação que realizamos deve ser devida a fatores aleatórios fora de nosso
controle, não relacionados a nossas manipulações experimentais (podemos chamar
esse "erro" ). Como na ANOVA independente, usamos uma relação F que compara o
tamanho da variação devido às nossas manipulações experimentais ao tamanho da
variação devido a fatores aleatórios; a única diferença é na forma como calculamos
essas variações. Se a variância devido às nossas manipulações é grande em relação à
variação devido a fatores aleatórios, obtemos um grande valor de F, e podemos
concluir que os resultados observados provavelmente não ocorreram se não houvesse
efeito na população.
A Figura 14.3 mostra como a variância é particionada em uma ANOVA de medidas
repetidas. O importante a notar é que temos os mesmos tipos de variâncias do que na
ANOVA independente: temos uma soma total de quadrados (SST), uma soma modelo
de quadrados (SSM) e uma soma residual de quadrados (SSR). A única diferença entre
medidas repetidas e ANOVA independente é de onde vêm essas somas de quadrados:
em ANOVA de medidas repetidas, o modelo e as somas de quadrados residenciais são
ambos parte da variação dentro do participante. Vejamos um exemplo. Eu sou uma
celebridade, tire-me daqui! é um programa de TV em que as celebridades (bem, não
são realmente celebridades como tal, mais como ex-celebridades), em uma tentativa
lamentável de salvar suas carreiras (ou apenas ter carreiras em primeiro lugar), ir e
viver na selva na Austrália por algumas semanas.
Durante o show, esses concorrentes devem fazer várias tarefas humilhantes e
degradantes para ganhar comida para seus companheiros de campo. Essas tarefas
invariavelmente envolvem creepy-crawlies em lugares onde creepy-crawlies não deve
ir; Por exemplo, você pode estar trancado em um caixão cheio de ratos, forçado a
colocar sua cabeça em uma tigela de grandes aranhas, ou ter enguias e baratas
derramadas sobre você. É cruel, voyeurista, gratuito, TV, e adoro. Como vegetariano,
uma tarefa favorita específica para mim é o confronto em que as celebridades têm que
comer coisas como insetos de palitos vivos, larvas de witchetty, olhos de peixe e
testículos cangurus / pênis. Honestamente, ver um olho de peixe explodir na boca de
alguém cicatriza sua imagem mental para sempre. Muitas vezes me perguntei (talvez
um pouco demais) qual dos alimentos do bushtucker é o mais revoltante. Imagine que
testei essa ideia obtendo oito celebridades e forçando-as a comer quatro animais
diferentes (o inseto de cana acima mencionado, testículo de cangurus, olho de peixe e
grão witchetty) em ordem de contrabalança. Em cada ocasião, meditei o tempo que
levou a celebridade a vomitar, em segundos. Este é um design de medidas repetidas
porque cada celebridade come todos os alimentos. A variável independente foi o tipo
de comida consumida e a variável dependente foi o tempo de retenção.
A Tabela 14.2 mostra os dados para este exemplo. Havia quatro alimentos, cada um
comido por oito celebridades diferentes. O seu tempo de retenção são mostrados na
tabela. Além disso, a quantidade média de tempo para vomitar para cada celebridade
é mostrada na tabela (e a variação no tempo de retenção), e também o tempo médio
para vomitar para cada alimento. A variância total no tempo de gotejamento será, em
parte, causada pelo fato de que diferentes animais são mais ou menos palatáveis (a
manipulação) e, em parte, serão causados pelo fato de que as próprias celebridades
diferirem em sua constituição ( diferenças individuais).
A soma total de quadrados, SST
Lembre-se de uma ANOVA independente de sentido único que a SST é calculada
usando a seguinte equação:

Em projetos de medidas repetidas, a soma total de quadrados é calculada exatamente


da mesma maneira. A grande variação na equação é simplesmente a variância de
todos os escores quando ignoramos o grupo ao qual pertencem. Então, se tratássemos
os dados como um grande grupo, seria semelhante à Figura 14.4. A variação dessas
pontuações é 8.19 (tente isso em sua calculadora). Utilizamos 32 pontuações para
gerar esse valor, portanto N é 32. Como tal, a equação torna-se:

Os graus de liberdade para esta soma de quadrados, como com a ANOVA


independente, serão N-1 ou 31.
A soma de quadrados dentro do participante, SSW
A diferença crucial em um projeto de medidas repetidas é o componente de variância
denominado variância intrapartidária, que representa diferenças individuais dentro
dos participantes. Quando analisamos a ANOVA independente, calculamos as
diferenças individuais como a soma residual dos quadrados (SS R) usando a equação
(11.6):

Em um design independente, tivemos participantes diferentes em cada condição,


então precisamos calcular esse valor dentro de cada condição e, em seguida, adicionar
esses valores para nos dar um total:

Fazemos a mesma coisa em um projeto de medidas repetidas, exceto porque, por ter
submetido as entidades a mais de uma condição experimental, estamos interessados
na variação não dentro de um grupo de entidades (como na ANOVA independente),
mas dentro de uma entidade. Portanto, usamos a mesma equação, mas adapte-a para
analisar os participantes e não os grupos. Então, se chamarmos essa soma de
quadrados SSW (para participante SS), poderíamos escrevê-lo como:

Esta equação significa que estamos observando a variação nas pontuações de um


indivíduo e depois adicionamos essas variações para todas as pessoas no estudo. Os ns
representam o número de pontuações em que se baseiam as variações (ou seja, o
número de condições experimentais ou, neste caso, a quantidade de alimentos). Todas
as variantes que precisamos estão na Tabela 14.2, então podemos calcular SSW como:

Os graus de liberdade para cada pessoa são n - 1 (isto é, o número de condições menos
1). Para obter os graus de liberdade totais, adicionamos o dfs para todos os
participantes. Assim, com oito participantes (celebridades) e quatro condições (ou
seja, n = 4), existem 3 graus de liberdade para cada celebridade e 8 × 3 = 24 graus de
liberdade no total.

O modelo de soma de quadrados, SSM.


Até agora, sabemos que a quantidade total de variação dentro dos dados é de 253,58
unidades. Nós também sabemos que 236.50 dessas unidades são explicadas pela
variação criada por performances de pessoas (celebridades) sob diferentes condições.
Algumas dessas variações são o resultado de nossa manipulação experimental e
algumas dessas variações são flutuações aleatórias. O próximo passo é calcular a
quantidade de variação explicada pela nossa manipulação e quanto não é.
Em ANOVA independente, descobrimos quanta variação poderia ser explicada pelo
nosso experimento (a soma do modelo dos quadrados), observando os meios para
cada grupo e comparando estes com a média geral. Então, medimos a variação
resultante das diferenças entre os meios do grupo e a média geral (ver equação
(11.4)). Fazemos exatamente a mesma coisa com um design de medidas repetidas:
Usando os meios dos dados do bushtucker (ver Tabela 14.2), podemos calcular o SSM
da seguinte maneira:

Para SSM, os graus de liberdade (dfM) são menos do que o número de coisas usadas
para calcular a soma dos quadrados. Calculamos a soma de erros quadrados usando
quatro meios, portanto, os graus de liberdade serão 3. Então, como com ANOVA
independente, os graus de liberdade do modelo são sempre o número de condições (k)
menos 1:

A soma residual de quadrados, SSR


Agora sabemos que existem 253,58 unidades de variação a serem explicadas em
nossos dados e que a variação em nossas condições representa 236,50 unidades.
Destas 236.50 unidades, nossa manipulação experimental pode explicar 83.13
unidades. A soma final de quadrados é a soma residual de quadrados (SSR), que nos
diz quanto da variação não pode ser explicada pelo modelo. Esse valor é a quantidade
de variação causada por fatores estranhos fora do controle experimental. Conhecendo
SSW e SSM já, a maneira mais simples de calcular SSR é subtrair SSM do SSW:

Os graus de liberdade são calculados de forma semelhante:


Os quadrados médios
SSM nos diz quanto variação o modelo (por exemplo, a manipulação experimental)
explica e SSR nos diz quanto variação é devido a fatores estranhos. No entanto, como
ambos valores são valores somados, o número de pontuações que foram somados
influenciou-os. Tal como acontece com a ANOVA independente, eliminamos esse viés
calculando a soma média dos quadrados (o quadrado médio, MS), que é a soma dos
quadrados divididos pelos graus de liberdade:

MSM representa a quantidade média de variação explicada pelo modelo (por exemplo,
a variação sistemática), enquanto o MSR é um indicador da quantidade média de
variação explicada por variáveis estranhas (a variação não sistemática).

A relação F
A relação F é uma medida da proporção da variação explicada pelo modelo e a
variação explicada por fatores não sistemáticos. Pode ser calculado dividindo o
quadrado médio do modelo pelo quadrado médio residual. Você deve lembrar que
isso é exatamente o mesmo para ANOVA independente:

Assim, como na ANOVA independente, a relação F ainda é a razão da variação


sistemática para a variação não sistemática. Como tal, é a razão do efeito experimental
para o efeito sobre o desempenho de fatores inexplicados. Para os dados do
bushtucker, a relação F é:
Esse valor é superior a 1, o que indica que a manipulação experimental teve algum
efeito acima e além do efeito de fatores estranhos. Tal como acontece com a ANOVA
independente, este valor pode ser comparado com um valor crítico com base em seus
graus de liberdade (que são dfM e dfR, que são 3 e 21 neste caso).

A soma entre quadrados dos participantes


Eu mencionei que a variação total é dividida em uma variação dentro do participante e
uma variação entre os participantes. Esquecimo-nos sobre a variação entre
participantes, porque não precisávamos para calcular a relação F. No entanto, vou
apenas mencionar brevemente o que representa. A maneira mais fácil de calcular este
termo é por subtração, porque sabemos da Figura 14.3 que:
SST = SSB + SSW

Nós já calculamos SSW e SST assim, ao reorganizar a equação e substituir os valores


desses termos, obtemos:

Este termo representa diferenças individuais entre os casos. Então, neste exemplo,
diferentes celebridades terão diferentes tolerâncias para esse tipo de alimento. Isso é
mostrado pelos meios para as celebridades na Tabela 13.2. Por exemplo, a celebridade
4 (M = 4,50) foi, em média, mais de 2 segundos mais rápida que o participante 8 (M =
6,75). A celebridade 8 tinha uma constituição melhor do que a celebridade 4. A soma
dos quadrantes entre participantes reflete essas diferenças entre os indivíduos. Neste
caso, apenas 17,39 unidades de variação nos tempos de vomitar podem ser explicadas
por diferenças individuais entre as nossas celebridades.

Pressupostos em ANOVA de medidas repetidas


Além da esfericidade, porque a ANOVA de medidas repetidas é uma extensão do
modelo linear, todas as fontes de viés potencial (e medidas contrárias) discutidas no
Capítulo 5 se aplicam (veja a Seção 5.4, por exemplo). Se essas medidas não ajudam,
então, quando você tem apenas uma variável independente, você pode usar a ANOVA
de Friedman, que discutimos no Capítulo 6. No entanto, para projetos de medidas
repetitivas fatoriais, não existe uma contraparte não paramétrica. Você também
descobrirá que o botão é notável por sua ausência na caixa de diálogo para ANOVA de
medidas repetidas no SPSS. Na verdade, não consegui encontrar uma versão robusta
do projeto fatorial de medidas repetidas (nem mesmo no excelente livro de Wilcox).
Então, em suma, se as sugestões para superar o viés no Capítulo 5 não ajudam, então
você está recheado.

ANOVA de medidas repetidas: o procedimento geral


O procedimento geral para ANOVA de medidas repetidas é muito parecido com
qualquer outro modelo linear, portanto, lembre-se do procedimento geral no Capítulo
8. A Figura 14.5 mostra uma visão geral simples que destaca algumas das questões
específicas ao usar medidas repetidas.

A análise principal
Seguindo o exemplo do bushtucker, sabemos que cada linha do editor de dados deve
representar dados de uma entidade, enquanto cada coluna representa um nível de
variável (SPSS Tip 3.2). Portanto, colunas separadas representam níveis de uma
variável de medida repetida. Como tal, os dados podem ser inseridos no editor de
dados SPSS no mesmo formato que a Tabela 14.2 (você não precisa incluir as colunas
denominadas Celebrity, Mean ou s2 porque foram incluídas apenas para me ajudar a
explicar como esta ANOVA é calculada ). Para começar, crie uma variável chamada
stick e use a caixa de diálogo Etiquetas para fornecer a esta variável o título completo
'Stick Insect'. Na próxima coluna, crie uma variável chamada testículo, e dê a esta
variável o título completo 'Teste de canguru'. O princípio agora deve ser claro: aplique-
o para criar as variáveis restantes chamadas olho ('Fish Eye') e witchetty ('Witchetty
Grub'). Esses dados também podem ser encontrados no arquivo Bushtucker.sav.
Para realizar uma ANOVA usando um design de medidas repetidas, ative a caixa de
diálogo . Definir fator (s) selecionando. Nesta caixa
de diálogo (Figura 14.6), você é solicitado a fornecer um nome para a variável dentro
do assunto (medidas repetidas). Nesse caso, a variável de medidas repetidas foi o tipo
de animal consumado no teste do bushtucker, então substitua a palavra factor1 pela
palavra Animal. O nome que você atribuiu à variável de medidas repetidas não pode
ter espaços nele. Quando você deu o nome de um fator de medidas repetidas, você
tem que dizer ao SPSS quantos níveis havia para essa variável (ou seja, quantas
condições experimentais existiam). Neste caso, havia quatro animais diferentes
comidos por cada pessoa, então entre o número 4 na caixa com o número de níveis.
Clique em ADD para adicionar esta variável à lista de variáveis de medidas repetidas.
Esta variável agora aparecerá na caixa branca na parte inferior da caixa de diálogo
como Animal (4). Se o seu projeto tiver várias variáveis de medidas repetidas, você
pode adicionar mais fatores à lista (veja o exemplo ANOVA de duas vias abaixo).
Quando você inseriu todos os fatores de medidas repetidas que foram medidos, clique
em DEFINE para ir para a caixa de diálogo principal de medidas repetidas.
A caixa de diálogo principal (Figura 14.7) possui um espaço denominado Variáveis de
dentro-assunto que contém uma lista de quatro pontos de interrogação seguidos de
um número. Esses pontos de interrogação são para as variáveis que representam os
quatro níveis da variável independente. As variáveis correspondentes a esses níveis
devem ser selecionadas e colocadas no espaço apropriado. Nós temos apenas quatro
variáveis no editor de dados, por isso é possível selecionar todas as quatro variáveis ao
mesmo tempo (clicando na variável no topo, pressionando a tecla Shift e clicando na
última variável que deseja selecionar). As variáveis selecionadas podem então ser
arrastadas para a caixa denominada Variáveis de assuntos internos (ou clique em).
Quando as quatro variáveis foram transferidas, você pode selecionar várias opções
para a análise. Existem várias opções às quais pode ser acessado com os botões ao
lado da caixa de diálogo principal. Essas opções são semelhantes às que já
encontramos.

Definindo contrastes para medidas repetidas


Não é possível especificar comparações planejadas definidas pelo usuário para
projetos de medidas repetidas no SPSS.4 No entanto, existe a opção de realizar um dos
muitos contrastes padrão que encontramos anteriormente (ver Seção 12.4.5. Para
detalhes de contrastes em mudança). Se você clicar na caixa de diálogo principal, você
pode acessar a caixa de diálogo Contraste (Figura 14.8). O contraste padrão é um
contraste polinomial, mas para alterar esse padrão, selecione uma variável na caixa
denominada Fatores, clique em, selecione um contraste na lista e clique em. Se você
optar por realizar um contraste simples, você pode especificar se deseja comparar
grupos com a primeira ou a última categoria. A primeira categoria seria a que foi
inserida como (1) na caixa de diálogo principal e, para esses dados, a última categoria
seria a inserida como (4). Portanto, a ordem na qual você incorpora variáveis na caixa
de diálogo principal é importante para os contrastes que você escolhe.

Não há um contraste particularmente bom para os dados que temos (o contraste


simples não é muito útil porque não temos categoria de controle), então vamos usar o
contraste repetido, que irá comparar cada animal com o animal anterior. Esse
contraste pode ser útil em projetos de medidas repetidas nas quais os níveis da
variável independente têm uma ordem significativa. Um exemplo é se você mediu a
variável dependente em pontos sucessivos no tempo ou administrou doses crescentes
de um medicamento. Quando você selecionou esse contraste, clique em para retornar
à caixa de diálogo principal.
Testes post hoc e opções adicionais
Como já mencionei anteriormente, a esfericidade cria algumas complicações divertidas
para testes pos hoc e, no que diz respeito ao controle da taxa de erro Tipo I e ao poder
decente, o método de Bonferroni é bastante bom (ver Jane Superbrain Box 14.1) .5
Quando a esfericidade é definitivamente não violada, o teste de Tukey pode ser usado,
mas se a esfericidade não pode ser assumida, o procedimento Games-Howell, que usa
um termo de erro combinado, é preferível ao teste de Tukey. Essas complicações
relacionadas à esfericidade significam que os testes post hoc padrão que vimos para
projetos independentes não estão disponíveis para análises de medidas repetidas
(você achará que se você acessar a caixa de diálogo para testes post hoc não listará
nenhum dos fatores medidos repetidos) . A boa notícia, porém, é que você pode fazer
alguns procedimentos post hoc básicos através das opções adicionais. Essas opções
podem ser acessadas clicando na caixa de diálogo principal para abrir a caixa de
diálogo Opções (Figura 14.9). Para especificar testes post hoc, selecione a variável de
medidas repetidas (neste caso Animal) da caixa denominada Meios Marginados
Estimados: Fator (s) e Interações de Fator e arraste-o para a caixa denominada Exibir
Meios para (ou clique em). Uma vez que uma variável foi transferida, você poderá
selecionar. Uma vez selecionada esta opção, a caixa denominada Ajuste do intervalo
de confiança torna-se ativa e você pode clicar para ver uma escolha de três níveis de
ajuste. O padrão é não ter nenhum ajuste e simplesmente executar um teste post hoc
Tukey L S D (isto não é recomendado). A segunda opção é uma correção de Bonferroni
(recomendada pelos motivos já mencionados) e a opção final é uma correção Šidák,
que deve ser selecionada se você estiver preocupado com a perda de energia
associada aos valores corrigidos por Bonferroni.
ANOVA de design misto (GLM 5) – Capítulo 15
O que este capítulo me falará?
A maioria dos adolescentes tem ansiedade e depressão, mas provavelmente tive mais
do que minha participação justa. A sanguessuga parasita que era a escola de gramática
de todos os meninos que eu assisti tinha me diverti em minhas habilidades sociais,
deixando em seu rastro uma casca aterrorizada. Embora eu não tivesse nenhum
problema real em tocar meu violão e gritar na frente das pessoas, falar com eles era
outro problema completamente. Na banda sentia-me à vontade, no mundo real não
era assim. Seu 18º aniversário é um momento de grande alegria, onde (no Reino
Unido, de qualquer forma) você deixa de lado os grilhões da infância e abraça o
excitante mundo novo da vida adulta. Seu bolo de aniversário pode simbolizar esta
feliz transição, refletindo uma das suas grandes paixões. O meu tinha uma foto com
uma pessoa de cabelos longos que parecia um pouco comigo, cortando os pulsos. Isso
praticamente resume tudo. Ainda assim, você não pode se bloquear no seu quarto
com seus álbuns de Iron Maiden para sempre, e, em breve, tentei me integrar à
sociedade. Entre as idades de 16 e 18 anos, isso é bastante envolvido ficando bêbado.
Eu descobri rapidamente que ficar bêbado tornou muito mais fácil falar com as
pessoas, e ficar realmente bêbado fez você inconsciente e então o problema de falar
com as pessoas foi completamente. Esta situação foi exacerbada pela presença
repentina de meninas no meu círculo social. Eu não tinha visto uma menina desde Clair
Sparks; eles eram particularmente problemáticos porque não só você tinha que falar
com eles, mas o que você disse tinha que ser realmente impressionante porque então
eles poderiam se tornar sua namorada. Além disso, em 1990, as meninas não
gostavam de falar sobre Iron Maiden - provavelmente ainda não. Velocidade de
namoro1 não existia naquela época, mas se tivesse sido uma manifestação doente e
torcida do inferno na Terra para mim. A idéia de ter uma situação social altamente
pressionada onde você tem que pensar em algo espirituoso e divertido de dizer ou ser
jogado para os abutres da eterna solidão teria me dado injetar álcool puro em meus
globos oculares; pelo menos, dessa forma, eu poderia estar coma e incapaz de ver a
decepção nos rostos daqueles obrigados a passar 3 minutos na minha empresa. É disso
que trata este capítulo: speed dating, oh e mix ANOVA também, mas se eu mencionar
que você se moverá rapidamente para o próximo capítulo quando o sino tocar.

Desenhos mistos
Se você pensou que o capítulo anterior era ruim, bem, estou prestes a lançar uma
complicação adicional na mistura. Podemos combinar medidas repetidas e projetos
independentes, e este capítulo analisa esta situação. Como se isso não fosse ruim o
suficiente, eu também vou usar isso como uma desculpa para mostrar-lhe um design
com três variáveis independentes (neste momento você deve me imaginar inclinando-
se para trás na minha cadeira, desarmado, driblando e rindo maniacamente). Uma
mistura de variáveis entre grupos e medidas repetidas é chamada de design misto.
Deve ser óbvio que você precisa de pelo menos duas variáveis independentes para
esse tipo de design, mas você também pode ter cenários mais complexos (por
exemplo, duas intergrupos e uma medida repetida, uma medida intergrupo e duas
medidas repetidas, ou mesmo duas medidas de cada). O SPSS permite testar quase
todos os projetos que você deseja, e praticamente qualquer grau de complexidade. No
entanto, os termos de interação são difíceis de interpretar com apenas duas variáveis,
então imagine o quão difícil elas são se você incluir quatro. O melhor conselho que
posso oferecer é manter três ou menos variáveis independentes se você quiser
interpretar seus termos de interação 2, e certamente não exceda quatro, a menos que
você queira dar-se uma enxaqueca.

Este capítulo passará por um exemplo de uma ANOVA mista. Não haverá nenhuma
teoria porque provavelmente já teve suficiente teoria ANOVA agora para ter uma boa
ideia do que está acontecendo (você pode ler isso como "é muito complexo para mim
e eu vou encobrir minha própria incompetência fingindo que não precisa saber sobre
isso "). Essencialmente, no entanto, como já vimos, qualquer ANOVA é um modelo
linear, então, quando temos três variáveis ou preditores independentes, simplesmente
adicionamos este terceiro preditor ao modelo linear, damos a b e lembremos também
de incluir quaisquer interações envolvendo o novo preditor. Examinaremos um
exemplo usando o SPSS e passaremos um pouco de tempo desenvolvendo sua
compreensão das interações e como dividi-las usando contrastes.

Pressupostos em projetos mistos

Se você já leu algum dos capítulos anteriores da ANOVA, você estará cansado de eu
escrever que ANOVA é uma extensão do modelo linear e, portanto, todas as fontes de
viés potencial (e medidas contrárias) discutidas no Capítulo 5 se aplicam (ver Seção
5.4, por exemplo). Mas, lá vai você, acabei de escrever novamente. Claro, porque os
projetos mistos incluem medidas repetidas e medidas entre grupos você tem o duplo
problema de ter que se preocupar com a homogeneidade de variância e esfericidade.
É o suficiente para fazer você irritar a tinta do polvo de inescapável desespero. Mas
não: sabemos que a falta de esfericidade é facilmente corrigida usando a correção da
Greenhouse-Geisser.

Os vários outros problemas no Capítulo 5 são mais problemáticos. Como vimos no


capítulo anterior, o botão está ausente na caixa de diálogo para ANOVA de medidas
repetidas. 'E quanto a testes não paramétricos?' Você pode perguntar. Você não
estaria sozinho: se eu tivesse £ 1 (ou US $ 1, 1 € ou qualquer moeda que você gosta)
para cada vez que alguém me perguntou qual era o equivalente não paramétrico da
ANOVA mista, eu teria um novo e brilhante tambor novo kit. A resposta curta é que
não há um, mas há métodos robustos que podem ser usados com base no
bootstrapping (Wilcox, 2012). Eles não podem ser feitos diretamente no SPSS, mas eles
podem ser implementados em R, e são explicados no livro de texto da irmã para esse
pacote (Field et al., 2012). Portanto, se as sugestões para superar o viés no Capítulo 5
não ajudem, coloque um tanque de oxigênio nas costas e comece a nadar no mar à
procura desse polvo ...

O que os homens e mulheres procuram em um parceiro?


Muitas revistas continuam sobre como homens e mulheres querem coisas diferentes
de relacionamentos (ou talvez sejam apenas as cópias da minha esposa de Marie
Claire, que eu não leio - honestamente). A grande questão parece ser: os aspectos ou a
personalidade são mais importantes? Imagine que você queria colocar isso à prova.
Você criou um plano astuto pelo qual você configuraria uma noite de namoro rápido.
Pouco as pessoas que vieram sabiam que você conseguiu que alguns de seus amigos
atuassem como as datas. Cada data variou em sua atratividade (atrativa, média ou
feia) e seu carisma (carismático, médio e aborrecido) e, ao combinar essas
características, você recebe nove datas diferentes. Como tal, suas datas de Stooge
foram constituídas por nove pessoas diferentes. Três eram pessoas extremamente
atraentes, mas diferiam em sua personalidade: uma tinha toneladas de carisma, 3 uma
tinha algum carisma e a outra era tão aborrecida como esse livro. Outras três pessoas
eram de atratividade média, e novamente diferiam em sua personalidade: uma era
altamente carismática, uma tinha algum carisma e a terceira era uma estúpida. Os três
finais foram, sem ofensa destinada aos porcos, feios por causa do porco, e novamente
uma era carismática, um tinha algum carisma e a má alma final era tediosa.
Obviamente, você tinha dois conjuntos de datas de Stooge: um conjunto era masculino
e outro feminino, para que seus participantes pudessem corresponder às datas de seu
sexo preferido.

Os participantes não foram estes nove novilhos, mas 10 homens e 10 mulheres que
vieram ao evento acelerado que você criou. Ao longo da noite, eles fecharam os nove
novatos do sexo que eles normalmente namoravam. Após o tempo de 3 minutos, eles
classificaram o quanto eles gostariam de ter um encontro adequado com a pessoa
como uma porcentagem (100% = 'Eu pagaria grandes somas de dinheiro por seu
número de telefone', 0% = ‘Eu pagaria uma grande quantia de dinheiro por um bilhete
de avião para me levar o mais longe possível deles"). Como tal, cada participante
avaliou nove pessoas diferentes que variaram em sua atratividade e personalidade.
Assim, existem duas variáveis de medidas repetidas: Aparências (com três níveis,
porque a pessoa pode ser atraente, média ou feia) e Personalidade (novamente com
três níveis, porque a pessoa pode ter muito carisma, ter algum carisma ou ser
constrangedor). As pessoas que dão as avaliações podem ser masculinas ou femininas,
então devemos também incluir o gênero da pessoa que faz as avaliações (masculino ou
feminino), e isso, é claro, será uma variável entre grupos. Os dados estão na Tabela
15.1.
ANOVA mista no SPSS

ANOVA mista: o procedimento geral

O procedimento geral para ANOVA misturado é o mesmo que qualquer outro modelo
linear (ver Capítulo 8).

A Figura 15.2 mostra uma visão geral mais simples que destaca alguns dos problemas
específicos ao usar um design misto.

Inserção de dados
Para inserir esses dados no SPSS, usamos o mesmo procedimento que a ANOVA de
medidas repetidas de duas vias. Lembre-se de que cada linha no editor de dados
representa os dados de um único participante.
Se uma pessoa participar de todas as condições (neste caso, todas as pessoas que
diferem em atratividade e todas as pessoas que diferem em seu carisma), cada
condição será representada por uma coluna no editor de dados. Neste experimento,
existem nove condições experimentais e, portanto, os dados precisam ser inseridos em
nove colunas (o formato é idêntico ao da Tabela 15.1). Você também precisará criar
uma variável de codificação para inserir valores para o gênero do participante (usei 1 =
masculino, 2 = feminino).

A análise principal

Primeiro, devemos avaliar nossas variáveis de medidas repetidas, então acesse a caixa
de diálogo Definir ator (es) selecionando .
Tal como acontece com a ANOVA de medidas repetidas de duas vias (veja o capítulo
anterior), precisamos dar nomes às nossas variáveis de medidas repetidas e especificar
quantos níveis eles têm. Neste caso, existem dois fatores internos: Looks (atraente,
médio ou feio) e Charisma (carisma alto, algum carisma e bronco). Na caixa de diálogo
Definir fatores (s), substitua a palavra factor1 pela palavra Looks, digite 3 na caixa com
o número de níveis. Clique ADD em para adicionar esta variável à lista de variáveis de
medidas repetidas. Esta variável agora aparecerá na caixa branca na parte inferior da
caixa de diálogo como Looks (3). Agora, digite a palavra Carisma no espaço rotulado
como Nome do Fator de Assunto e depois, porque havia três níveis dessa variável,
digite o número 3 no espaço com o número de Níveis. Clique em ADD para incluir esta
variável na lista de fatores; aparecerá como Carisma (3). A caixa de diálogo concluída é
mostrada na Figura 15.4. Quando você inseriu os dois fatores dentro do assunto, clique
em DEFINE para ir para a caixa de diálogo principal.

A caixa de diálogo principal da Figura 15.5 é igual ao capítulo anterior. No topo da


caixa Variáveis de assuntos internos, o SPSS afirma que existem dois fatores: Looks e
Charisma. Na caixa abaixo, há uma série de pontos de interrogação seguidos por
números entre colchetes. Os números entre parênteses representam os níveis das
variáveis independentes - veja o capítulo anterior para uma explicação mais detalhada.
Existem duas variáveis independentes e, portanto, há dois números entre colchetes. O
primeiro número refere-se aos níveis do primeiro fator listado acima da caixa (neste
caso, Looks), enquanto o segundo se refere aos níveis do segundo fator listado acima
da caixa (neste caso Charisma). Tal como acontece com as outras ANOVA de medidas
repetidas que encontramos, devemos substituir os pontos de interrogação por
variáveis da lista no lado esquerdo da caixa de diálogo.
Como no capítulo anterior, precisamos pensar sobre o tipo de contrastes que podemos
querer fazer antes de especificar variáveis nesta caixa de diálogo. Para a primeira
variável, Looks, havia três condições: atraente, média e feia. Em muitos aspectos, faz
sentido comparar as condições atraentes e feias com a média, porque a pessoa média
representa a norma (embora não seja errada, por exemplo, comparar atrativa e média
para feia). Esta comparação pode ser feita especificando um contraste simples (ver
Tabela 11.6) desde que asseguremos que a média seja codificada como nossa primeira
ou última categoria. Para o segundo fator, Carisma, há também uma categoria que
representa a norma: algum carisma. Mais uma vez, poderíamos usar isso como um
controle contra o qual comparar nossos dois extremos (alto carisma e ser um bronco).
Portanto, poderíamos usar novamente um contraste simples para comparar tudo
contra "algum carisma", mas precisamos inserir essa categoria como primeiro ou
último nível. Com base nesta discussão sobre o uso de contrastes, faz sentido ter
média como nível 3 do fator Looks e algum carisma como nível 3 do fator Charisma. Os
níveis remanescentes podem ser decididos arbitrariamente. Eu escolhi atraente como
nível 1 e feio como o nível 2 do fator Looks. Para a variável Carisma escolhi alto
carisma como nível 1 e nenhum como nível 2. Essas decisões significam que as
variáveis devem ser inseridas como na Figura 15.6. Eu deliberadamente fiz a ordem
diferente de como as variáveis estão listadas no editor de dados. Até agora, o
procedimento foi semelhante a outros projetos fatoriais de medidas repetidas. No
entanto, temos um design misto aqui, então também precisamos especificar nosso
fator entre grupos também. Fazemos isso selecionando Gender na lista de variáveis e
arrastando para a caixa rotulada Between-Subjects Factors (ou clique em). A caixa de
diálogo concluída deve ser a Figura 15.7. Eu já discuti as opções para os botões ao lado
desta caixa de diálogo, então falo apenas sobre os interesses particulares para este
exemplo.
Outras opções
Como já vimos antes, não há facilidade para inserir códigos de contraste em projetos
de medidas repetidas (a menos que você use sintaxe), então precisamos usar os
contrastes internos (veja a Tabela 11.6). A Figura 15.8 mostra a caixa de diálogo para
especificar contrastes, que é obtida clicando na caixa de diálogo principal . Na
seção anterior, descrevi por que pode ser interessante usar a atratividade média e
algumas condições de carisma como categorias básicas para os fatores Looks e
Charisma, respectivamente. Nós usamos a caixa de diálogo de contrastes antes nas
Seções 12.4.5 e 14.5.3, então, tudo o que vou dizer é que você deve selecionar um
contraste simples para Looks e Charisma. Em ambos os casos, especificamos as
variáveis de modo que a categoria de controle foi a última; portanto, não precisamos
alterar a categoria de referência para o contraste. Uma vez que os contrastes foram
selecionados, clique em para retornar à caixa de diálogo principal. O gênero
tem apenas dois níveis (masculino ou feminino), por isso não precisamos especificar
contrastes para esta variável, nem precisamos selecionar testes pós-hoc.4 Podemos
traçar um gráfico áspero do efeito de interação de gênero × gênero × gênero por
clicando em para acessar a caixa de diálogo na Figura 15.9. Arraste olha para o
slot denominado eixo horizontal, carisma para a ranhura denominada Linhas
separadas e Gênero para a ranhura denominada Separar tramas. Quando as três
variáveis foram especificadas, não esqueça de clicar para adicionar esta
combinação à lista de lotes. Especificar o gráfico desta maneira irá traçar o gráfico de
interação para aparência e carisma, mas produzir versões separadas para participantes
do sexo masculino e feminino.

No que diz respeito a outras opções, você deve selecionar os mesmos que foram
escolhidos para o exemplo no capítulo anterior (ver Seção 14.9.5.). Vale a pena
selecionar meios marginais estimados para todos os efeitos (porque esses valores o
ajudarão a entender quaisquer efeitos significativos), mas para economizar espaço,
não pedi intervalos de confiança para esses efeitos porque consideramos essa parte da
produção com algum detalhe já. Quando todas as opções apropriadas foram
selecionadas, execute a análise.

Saída para ANOVA fatorial mista

A saída inicial contém uma tabela que lista as variáveis de medidas repetidas do editor
de dados e o nível de cada variável independente que representam. A segunda tabela
contém estatísticas descritivas (média e desvio padrão) para cada uma das nove
condições, divididas de acordo com se os participantes eram do sexo masculino ou
feminino (ver Saída 15.1). Os nomes nesta tabela são os nomes que eu dei as variáveis
no editor de dados (portanto, sua saída pode diferir ligeiramente). Essas estatísticas
descritivas mostram o padrão de meios em todas as condições; usamos esses meios
para produzir os gráficos da interação de três vias.

A saída 15.2 mostra os resultados do teste de esfericidade de Mauchly para cada um


dos três efeitos de medidas repetidas no modelo. Nenhum dos efeitos viola a
suposição de esfericidade porque todos os valores na coluna rotulada Sig. A saída 15.3
mostra a tabela de resumo dos efeitos das medidas repetidas na ANOVA com valores F
corrigidos. Tal como com as medidas repetitivas fatoriais ANOVA, a saída é dividida em
seções para cada um dos efeitos no modelo e seus termos de erro associados. As
interações entre nossa variável de gênero entre grupos e os efeitos de medidas
repetidas também estão incluídas nesta tabela.
Você deve estar ciente agora que se os valores na coluna rotulada Sig. são menos do
que. 05 para um efeito particular, então é estatisticamente significativo. Trabalhando
abaixo do topo da tabela, encontramos efeitos significativos de Looks, a interação
Looks × Gender, Charisma, a interação Charisma × Gender, a interação Looks ×
Charisma e a interação Looks × Charisma × Gender. Tudo, basicamente. Você
normalmente não se interessaria por efeitos principais quando existirem interações
significativas, mas, para fins completos, analisaremos como interpretar cada efeito por
sua vez, começando pelo efeito principal do gênero.

O principal efeito do gênero

Antes de analisar o principal efeito do gênero, devemos verificar a hipótese de


homogeneidade de variância usando o teste de Levene (ver Seção 5.3.3.2).

SPSS produz uma tabela listando o teste de Levene para todas as combinações de
níveis de variáveis de medidas repetidas. A saída 15.4 mostra esta tabela, e você pode
ver isso porque todos os valores de significância são maiores do que .05 as variações
são homogêneas para todos os níveis das variáveis de medidas repetidas. Se algum
valor fosse significativo, teríamos que tentar algumas das medidas corretivas discutidas
no Capítulo 5.

O principal efeito do gênero é listado separadamente dos efeitos de medidas repetidas


em uma tabela denominada Testes de Efeitos Entre Assuntos. Esta tabela (Saída 15.5)
revela um efeito não significante porque o significado de .946 é maior do que o ponto
de corte padrão de .05. Este efeito nos diz que, se ignorarmos todas as outras
variáveis, as classificações dos participantes masculinos eram basicamente as mesmas
que as do sexo feminino. Se você solicitou que a exibição SPSS significa para todos os
efeitos na análise (eu vou assumir que você fez a partir de agora), você deve encontrar
tabelas de meios em uma seção denominada Meios marginais estimados na saída. A
Figura 15.10 mostra esta tabela para o principal efeito do gênero ao lado de uma
trama desses meios. É claro a partir deste gráfico que, em geral, as classificações de
homens e mulheres eram as mesmas.
O principal efeito da aparência

Encontramos o significativo efeito principal dos looks, F (2, 36) = 423,73, p <0,001, na
saída 15.3. Este efeito nos diz que, se ignorarmos todas as outras variáveis, as
classificações eram diferentes para datas atraentes, médias e feias. A Figura 15.11
mostra os Meios marginais estimados para o efeito principal dos olhares e um gráfico
desses meios. Os níveis de aparência são rotulados como 1, 2 e 3, e é baixo para você
lembrar como você inseriu as variáveis (ou pode observar a tabela de resumo que o
SPSS produz no início da saída - veja Saída 15.1). Se você fez o mesmo que eu, o nível 1
é atraente, o nível 2 é feio e o nível 3 é médio. A partir desta tabela e trama, você pode
ver que, à medida que a atratividade diminui, a classificação média cai também.
Portanto, esse efeito principal parece refletir que os avaliadores eram mais propensos
a expressar um maior interesse em sair com pessoas atraentes do que pessoas médias
ou feias. No entanto, nós realmente precisamos olhar para alguns contrastes para
descobrir exatamente o que está acontecendo.
O resultado 15.6 mostra os contrastes que pedimos. Por enquanto, basta ver a linha
chamada Looks. Lembre-se de que fizemos um contraste simples e, portanto,
conseguimos um contraste comparando o nível 1 com o nível 3, e depois comparamos
o nível 2 com o nível 3; Por causa da ordem em que inserimos as variáveis, esses
contrastes representam atrativo em comparação com a média (nível 1 versus nível 3) e
feio em comparação com a média (nível 2 versus nível 3). Os valores de F para cada
contraste e seus valores de significância relacionados nos dizem que o principal efeito
da atratividade representou o fato de que as datas atrativas foram classificadas
significativamente acima das datas médias, F (1, 18) = 226.99, p <.001, e as datas
médias foram classificadas significativamente mais altas que as feias, F (1, 18) =
160,07, p <0,001.

O principal efeito do carisma

Na saída 15.3 houve um efeito principal significativo do carisma, F (2, 36) = 328,25, p
<0,001. Este efeito nos diz que se ignorarmos todas as outras variáveis, as
classificações eram diferentes para pessoas altamente carismáticas, medianamente
carismáticas e maçantes. A tabela denominada Charisma na seção intitulada Meios
marginais estimados nos diz o que esse efeito significa (como mostrado na Figura
15.12 ao lado de uma trama). Novamente, os níveis de carisma são rotulados como 1,
2 e 3. Se você seguiu o que eu fiz, então o nível 1 é alto carisma, o nível 2 é obscuro eo
nível 3 é algum carisma. Este efeito principal parece refletir que, à medida que o
carisma diminui, a classificação média dos dados também cai: os avaliadores
expressaram maior interesse em sair com pessoas carismáticas do que as pessoas
comuns ou os broncos. Nós pedimos contrastes simples (a linha chamada Charisma na
Saída 15.6) e, devido à ordem em que inserimos variáveis, esses contrastes
representam alto carisma em comparação com algum carisma (nível 1 versus nível 3) e
nenhum carisma comparado a algum carisma (nível 2 vs. nível 3). Esses contrastes nos
dizem que o principal efeito do carisma é que as datas altamente carismáticas foram
classificadas significativamente mais altas do que as datas com algum carisma, F (1, 18)
= 109,94, p <0,001 e as datas com algum carisma foram classificadas significativamente
mais altas do que broncos , F (1, 18) = 227,94, p <0,001.
A interação entre gênero e aparência

O gênero interagiu significativamente com a atratividade da data, F (2, 36) = 80,43, p


<0,001 (Saída 15.3). Este efeito nos diz que o perfil das avaliações em datas diferentes
de atratividade foi diferente para homens e mulheres. Podemos usar novamente o
meio marginal estimado para determinar a natureza dessa interação (você pode obter
o SPSS para traçar esta interação usando a caixa de diálogo na Figura 15.9). O gráfico
de meios e interação na Figura 15.13 mostra o significado desse resultado. O gráfico
mostra que as classificações masculina (linha vermelha) e feminino (linha azul) são
muito semelhantes para datas de aparência média, mas os homens dão classificações
mais altas (ou seja, eles estão realmente interessados em sair com essas pessoas) do
que as mulheres para datas atraentes , mas as mulheres expressam mais interesse em
sair com pessoas feias do que com os homens. Em geral, essa interação parece sugerir
que o interesse dos homens em namorar uma pessoa é mais influenciado pela
aparência que as mulheres. Embora o interesse masculino e feminino diminua à
medida que a atratividade diminui, essa diminuição é mais pronunciada para os
homens. Essa interação pode ser esclarecida usando os contrastes na Saída 15.6.

Looks × interação de gênero 1: atraente vs. média, masculino vs.


feminino

O contraste para o primeiro termo de interação observa o nível 1 dos looks (atrativos)
em comparação com o nível 3 (média), comparando as pontuações masculina e
feminina. Este contraste é altamente significativo, F (1, 18) = 43,26, p <0,001,
sugerindo que o aumento do interesse em datas atraentes em comparação com as
datas de aparência média encontradas para homens é significativamente maior que
para as mulheres. Assim, na Figura 15.13, a inclinação da linha vermelha (masculino)
entre datas atraentes e datas médias é mais pronunciada do que a linha azul
comparável (mulheres). As preferências para datas atraentes, em comparação com
datas de aparência média, são maiores para homens do que para mulheres.
Aparência × interação de gênero 2: feia vs. média, sexo masculino vs.
mulher

O segundo contraste, que compara machos e fêmeas no nível 2 de aparência (feio) em


relação ao nível 3 (média) é altamente significativo, F (1, 18) = 30,23, p <0,001. Isso nos
diz que a diminuição do interesse em datas feias em comparação com as datas de
aparência média encontradas para os homens é significativamente mais do que para as
mulheres. Na Figura 15.13, a inclinação da linha vermelha entre as datas feia e média é
mais pronunciada que a linha azul correspondente. As preferências para datas de
aparência média, em comparação com datas feias, são maiores para homens do que
fêmeas.

Carisma × interação de gênero 1: alto vs. algum carisma, masculino vs.


feminino

O primeiro contraste, que observa o nível 1 do carisma (alto carisma) em relação ao


nível 3 (algum carisma), para os homens em relação às fêmeas, é altamente
significativo, F (1, 18) = 27,20, p <0,001. Este resultado nos diz que o aumento do
interesse em datas altamente carismáticas, em comparação com datas quase
carismáticas encontradas para mulheres, é significativamente mais do que para os
homens. Na Figura 15.14, a inclinação da linha azul (fêmea) entre carisma alto e algum
carisma é mais pronunciada do que a linha vermelha correspondente (macho). As
preferências por datas muito carismáticas, em comparação com datas quase
carismáticas, são maiores para as mulheres do que para os homens.

Carisma × interação de gênero 2: Bronco/estúpido vs algum carisma, masculino vs

O segundo contraste para o carisma × interação de gênero analisa o nível 2 do carisma


(bronco) em comparação com o nível 3 (algum carisma), comparando os escores
masculino e feminino. Esse contraste é altamente significativo, F (1, 18) = 33,69, p
<0,001, e sugere que a diminuição do interesse em datas bronco em comparação com
datas quase carismáticas encontradas para mulheres é significativamente mais do que
para os homens. Na Figura 15.14, a inclinação da linha azul (fêmea) entre algum
carisma e bronco é mais pronunciada do que a linha vermelha correspondente
(masculino): as preferências para datas com algum carisma sobre broncos são maiores
para as fêmeas do que os machos.

A interação entre atratividade e carisma

Houve uma atratividade significativa × interação de carisma na Saída 15.3, F (4, 72) =
36,63, p <0,001. Este efeito nos diz que o perfil das avaliações em datas de diferentes
níveis de carisma foi diferente para datas atraentes, médias e feias. Podemos desfazer
essa interação utilizando os meios marginais estimados, um gráfico (use a caixa de
diálogo na Figura 15.9 para obter um áspero) e contrastes. O gráfico (Figura 15.15)
mostra a classificação média de datas de diferentes níveis de atratividade quando a
data também apresentou altos níveis de carisma (linha vermelha), algum carisma
(linha azul) e nenhum carisma (linha verde). Olhe primeiro para a diferença entre datas
atraentes e de aparência média. O interesse em datas altamente carismáticas não
muda (a linha é mais ou menos plana entre estes dois pontos), mas para datas com
algum carisma ou nenhum nível de interesse de carisma declina. Então, se você tem
muito carisma, pode fugir com uma aparência média: as pessoas ainda querem
namorar com você. Agora, veja a diferença entre datas medianas e feias. Um padrão
diferente é observado: para datas sem carisma, há pouca diferença entre pessoas feias
e de aparência média, mas para aqueles com carisma há um declínio no interesse se
você for feio. Parece que, se você é um bronco, você precisa ser realmente atraente
antes que as pessoas desejam namorar com você, mas se você é feio, depois de ter
carisma não vai ajudá-lo muito. Os contrastes na saída 15.6 separarão esses efeitos
específicos.

Olha × interação de carisma 1: atraente vs. média, alto carisma vs. algum carisma
O primeiro contraste para a análise de carisma de olhar × investiga nível 1 de aparência
(atraente) em comparação com o nível 3 de aparência (média), para o nível 1 de
carisma (carisma alto) em relação ao nível 3 de carisma (algum carisma). Isto é como
perguntar "a diferença entre alto carisma e algum carisma é o mesmo para pessoas
atraentes e pessoas de aparência média?" A melhor maneira de entender esse
contraste é focar o bit relevante do gráfico de interação na Figura 15.15, que eu
Reproduziram na parte superior esquerda da Figura 15.16. O interesse (conforme
indicado por avaliações altas) em datas atrativas foi o mesmo independentemente de
possuírem carisma alto ou médio; no entanto, para datas de aparência média, houve
mais interesse quando essa pessoa apresentava carisma alto em vez de média. O
contraste é altamente significativo, F (1, 18) = 21,94, p <0,001, e nos diz que, à medida
que as datas se tornam menos atraentes, há um declínio significativamente maior no
interesse quando o carisma é médio em comparação com quando o carisma é alto.

Aparência × interação de carisma 2: atraente vs. média, bronco versus


alguns carisma

O segundo contraste perguntou a pergunta: "a diferença entre nenhum carisma e


algum carisma é o mesmo para pessoas atraentes e pessoas de aparência média". Ele
explora o nível 1 de aparência (atraente) em relação ao nível 3 dos looks (média), no
nível 2 de carisma (bronco) em relação ao nível 3 de carisma (algum carisma).
Podemos novamente focar a parte relevante do gráfico de interação (Figura 15.15) que
é reproduzida no canto superior direito da Figura 15.16. Este gráfico mostra que o
interesse em datas atrativas foi maior quando eles tiveram algum carisma (azul) do
que quando eram um bronco (verde); o mesmo também é verdadeiro para datas de
aparência média. As duas linhas são bastante paralelas, o que se reflete no contraste
não significativo, F (1, 18) = 4,09, p = 0,058. Parece que, à medida que as datas se
tornam menos atraentes, há um declínio no interesse quando o carisma é baixo e
quando não há carisma.
Aparência × interação de carisma 3: feia versus média, alto carisma
versus algum carisma.

O terceiro contraste investiga nível 2 de aparência (feio) em relação ao nível 3 de


aparência (média), comparando nível 1 de carisma (carisma alto) com nível 3 de
carisma (algum carisma). Este contraste pergunta "a diferença entre carisma alto e
algum carisma é o mesmo para pessoas feias e pessoas de aparência média". A parte
relevante do gráfico de interação é mostrada na parte inferior esquerda da Figura
15.16. O interesse em namoro diminui de datas de aparência média a feias em datas
altas e algumas de Harisma; no entanto, esta queda é significativamente maior nas
datas de baixo carisma (a linha azul é ligeiramente mais acentuada do que a vermelha),
F (1, 18) = 6,23, p = 0,222. À medida que as datas se tornam menos atraentes, há um
declínio significativamente maior nos juros quando as datas têm algum carisma em
comparação com quando eles têm muito.

Parece × interação de carisma 4: feia vs. média, bronco versus algum


carisma

O contraste final aborda a questão "é a diferença entre nenhum carisma e algum
carisma o mesmo para pessoas feias e pessoas de aparência média?" Ele compara o
nível 2 de aparência (feio) com o nível 3 de aparência (média), no nível 2 de carisma
(bronco) em relação ao nível 3 de carisma (algum carisma). A parte relevante do
gráfico de interação é mostrada na parte inferior direita da Figura 15.16. Para as datas
de avaliação, as classificações foram mais altas quando tiveram algum carisma do que
quando eram difíceis, mas, por datas feias, as classificações eram aproximadamente
iguais, independentemente do nível de carisma. Esse contraste é altamente
significativo, F (1, 18) = 88.60, p <.001.

A interação entre olhares, carisma e gênero

A expressão significativa × interação de carisma × gênero na Saída 15.3, F (4, 72) =


24.12, p <.001, nos diz se a interação de carisma de aparência × descrita acima é a
mesma para homens e mulheres (ou seja, o efeito combinado de atratividade da data
e seu nível de carisma é o mesmo para os participantes masculinos do que para as
mulheres). A natureza desta interação é revelada na Figura 15.17, que mostra a
interação do carisma de aparência × para homens e mulheres separadamente (os
meios em que esse gráfico é baseado aparecem na Saída 15.7). O gráfico masculino
mostra que quando as datas são atraentes, os homens expressarão um alto interesse,
independentemente dos níveis de carisma (as linhas vermelha, azul e verde se
encontram). No extremo oposto da escala de atratividade, quando uma data é feia,
independentemente do carisma, os homens expressarão muito pouco interesse (as
classificações são baixas). O único tempo em que o carisma faz diferença para um
homem é se a data é de aparência média, caso em que o alto carisma (vermelho)
aumenta o interesse, sendo um bronco (verde) reduz o interesse e ter um pouco de
carisma deixa coisas em algum lugar . A mensagem de levar a casa é que os homens
são cretinos superficiais que estão mais interessados em atributos físicos.

A foto para as mulheres é muito diferente. Se alguém tem altos níveis de carisma,
então não importa o que pareça, as mulheres expressarão seu interesse (a linha
vermelha é relativamente plana). No outro extremo, se a data for um sombrio, eles
não expressarão interesse neles, independentemente de quão atraentes eles (a linha
verde é relativamente plana). A única vez que a atratividade faz a diferença é quando
alguém tem uma quantidade média de carisma (a linha azul), caso em que ser atraente
aumenta o interesse e ser feio reduz-se. Dito de outra forma, as mulheres priorizam o
carisma sobre a aparência física. Mais uma vez, podemos observar alguns contrastes
para reduzir ainda mais esta nteração (Saída 15.6). Esses contrastes são semelhantes
aos da análise de carisma de aparência ×, mas agora também levam em consideração o
efeito do gênero.
Aparência × carisma × interação de gênero 1: atraente vs. média, alto
carisma versus algum carisma, sexo masculino versus feminino

O primeiro contraste para a aparência × carisma × interação de gênero compara nível 1


de aparência (atraente) ao nível 3 de aparência (média), quando o nível 1 de carisma
(alto carisma) é comparado ao nível 3 de carisma (alguns carismas) em machos em
relação às fêmeas, F (1, 18) = 0,93, p = 0,348. As partes relevantes da Figura 15.17 são
mostradas no painel superior esquerdo da Figura 15.18. Parece que o interesse em
namorar (como indicado por classificações altas) as datas atraentes foi o mesmo,
independentemente de possuírem carisma alto ou médio (os pontos azul e vermelho
estão no mesmo lugar). No entanto, para datas de aparência média, havia mais
interesse quando essa pessoa apresentava carisma alto em vez de algum carisma (o
ponto azul é menor do que o ponto vermelho). A não significância deste contraste
indica que este padrão de resultados é muito semelhante em machos e fêmeas.

Aparências × carisma × interação de gênero 2: atraente vs. média, bronco vs. algum
carisma, masculino versus feminino.

O segundo contraste explora o nível 1 de aparência (atraente) em relação ao nível 3 de


aparência (média), quando o nível 2 do carisma (bronco) é comparado ao nível 3 do
carisma (algum carisma), nos homens em comparação com as mulheres. Os meios
relevantes são mostrados no painel superior direito da Figura 15.18. O contraste é
significativo, F (1, 18) = 60,67, p <0,001, o que reflete o fato de que o padrão de meios
é diferente para homens e mulheres. Primeiro, se olharmos para datas de aparência
média, mais homens e mulheres expressam mais interesse quando a data tem algum
carisma do que quando não tem nenhum (e a distância entre as linhas azul e verde é
aproximadamente a mesma). Portanto, a diferença de gênero não parece estar aqui.
Se olharmos agora para datas atraentes, vemos que os homens estão igualmente
interessados em suas datas, independentemente do seu carisma (as linhas se
encontram), mas para as mulheres, eles estão muito menos interessados em uma
pessoa atraente se eles são um bronco (o verde O ponto é muito inferior ao azul).

Outra maneira de ver isso é que, para datas com algum carisma, a redução do
interesse como a diminuição da atenção é quase igual em homens e mulheres (as
linhas azuis têm a mesma inclinação). No entanto, para as datas que são broncos, a
diminuição do interesse se essas datas são de aparência média e não atrativa é muito
mais dramática nos homens do que nas mulheres (a linha verde é mais íngreme para
os homens do que para as mulheres).

Olha × carisma × interação de gênero 3: feia vs. média, alto carisma


versus algum carisma, machos versus fêmeas.

O terceiro contraste também foi significativo, F (1, 18) = 11,70, p = 0,003. Este
contraste compara o nível 2 de aparência (feio) com o nível 3 de aparência (média), no
nível 1 de carisma (carisma elevado) em relação ao nível 3 de carisma (alguns carisma),
em homens em comparação com mulheres. O painel inferior esquerdo da Figura 15.18
mostra os meios relevantes. Primeiro, vejamos os homens. Para os homens, à medida
que a atratividade diminui, o interesse também é interessante quando a data tem alto
carisma e quando eles têm algum carisma (as inclinações das linhas vermelha e azul
são semelhantes). Assim, independentemente do carisma, existe uma redução
semelhante no interesse, à medida que a atratividade diminui. Agora vejamos as
mulheres. A imagem é bastante diferente: quando o carisma é alto, não há declínio no
interesse à medida que a atratividade cai (a linha vermelha é plana); no entanto,
quando o carisma é menor, a atratividade da data é importante e o interesse é menor
em uma data feia do que em uma data de aparência média (a linha azul cai para
baixo).

Outra maneira de olhar para isso é que, para datas com algum carisma, a redução do
interesse como a redução de atratividade é quase igual em homens e mulheres (as
linhas azuis têm inclinações semelhantes). No entanto, para as datas que têm alto
carisma, a diminuição do interesse se essas datas são feias, em vez de média, é muito
mais dramática nos homens do que nas mulheres (a linha vermelha é mais acentuada
para os homens do que para as mulheres).

Aparência × carisma × interação de gênero 4: feia vs. média, bronco vs.


algum carisma, masculino vs. feminino.

O contraste final não foi significativo, F (1, 18) = 1,33, p = 0,263. Este contraste analisa
o efeito do gênero ao comparar o nível 2 dos looks (feio) com o nível 3 dos looks
(média), no nível 2 do carisma (bronco) em relação ao nível 3 do carisma (algum
carisma). Os meios relevantes são exibidos no painel inferior direito da Figura 15.18. O
interesse em datas feias foi o mesmo, independentemente de terem algum carisma ou
foram um bronco (os pontos azul e verde estão no mesmo lugar). Para datas mais
velhas, havia mais interesse quando aquela pessoa apresentava algum carisma em vez
de ser um bronco (o ponto azul é maior do que o verde). Importante, esse padrão de
resultados é muito semelhante em machos e fêmeas.

Conclusões

Esses contrastes não nos dizem nada sobre as diferenças entre as condições atraentes
e feias, ou as condições de alto carisma e bronco, porque nunca foram comparadas.
Poderíamos reexecutivar a análise e especificar nossos contrastes de forma diferente
para obter esses efeitos. No entanto, o que é claro a partir de nossos dados é que
existem diferenças entre homens e mulheres em termos de como eles são afetados
pela aparência e personalidade das datas em potencial. Os homens parecem estar
entusiasmados com namoro com alguém atraente, independentemente da sua
personalidade tão terrível. As mulheres são quase completamente o oposto: estão
entusiasmadas com namorar com qualquer tipo de carisma, independentemente de
como elas parecem (e não são entusiasmadas com namorar pessoas sem carisma,
independentemente de quão atraentes elas parecem). A única consistência entre
homens e mulheres é que, quando há algum carisma (mas não muito), a atratividade
influencia o quanto eles estão entusiasmados com o namoro da pessoa.

O que deve ser ainda mais claro a partir deste capítulo é que, quando mais de duas
variáveis independentes são usadas na ANOVA, produz efeitos de interação complexos
que exigem uma grande concentração de interpretação (imagine o quanto seu cérebro
pulsará ao interpretar um método de quatro vias interação). Se confrontado com este
cenário particularmente desagradável, o meu melhor conselho é tomar uma
abordagem sistemática para a interpretação e os gráficos de gráficos é uma maneira
útil de prosseguir. Também é aconselhável pensar cuidadosamente sobre os contrastes
apropriados para usar para responder as perguntas que você tem sobre seus dados.
São esses contrastes que irão ajudá-lo a interpretar interações, portanto, certifique-se
de selecionar aquelas sensíveis.

Cálculo de tamanhos de efeito

Eu continuo enfatizando o fato de que os tamanhos de efeito são realmente mais úteis
quando resumem um efeito focado. Isso também me dá uma desculpa útil para
contornar as complexidades do ômega quadrado em projetos mistos (é o caminho da
loucura, eu lhe asseguro). Portanto, basta calcular os tamanhos de efeito para seus
contrastes quando você tem um design fatorial (e quaisquer efeitos principais que
comparam apenas dois grupos). A saída 15.6 mostra os valores de vários contrastes,
todos os quais têm 1 grau de liberdade para o modelo (ou seja, eles representam uma
comparação focada e interpretável) e possuem 18 graus de liberdade residuais.
Podemos usar esses F-ratios e convertê-los em um efeito tamanho r, usando uma
fórmula que encontramos antes:

Primeiro, podemos lidar com o principal efeito do gênero porque isso compara apenas
dois grupos:

Para as duas comparações que fizemos para a variável de aspecto (Saída 15.6),
obteríamos:
Portanto, ambas as comparações produziram tamanhos de efeito maciço. Para as duas
comparações que fizemos para a variável de carisma (Saída 15.6), obteríamos:

Novamente, ambas as comparações produzem tamanhos de efeito maciço. Para a


aparência × interação de gênero, novamente tivemos dois contrastes:

Novamente, estes são efeitos maciços. Para o carisma × interação de gênero, os dois
contrastes nos dão:

Mais uma vez, os efeitos maciços (sim, os dados são fabricados). Movendo-se para a
análise de carisma de aparência ×, obtemos quatro contrastes:
Todos esses efeitos estão na faixa média a grande. Finalmente, para a aparência ×
carisma × interação de gênero, tivemos quatro contrastes:

Como tal, os dois efeitos que eram significativos (atrativo vs. média, doloroso vs.
alguns, masculino vs. feminino e feio vs. média, alto vs. alguns, masculino vs. feminino)
renderam grandes tamanhos de efeito. Os dois efeitos que não eram significativos
cederam a tamanhos de efeitos médios.

Relatando os resultados da ANOVA mista

Como você provavelmente reuniu, quando você tem mais de duas variáveis
independentes, há muitas informações para relatar. Eu mencionei algumas vezes que,
quando os efeitos de interação são significativos, não faz sentido interpretar os
principais efeitos, então você pode economizar espaço ao não denunciá-los; no
entanto, algumas revistas esperam que você as informe de qualquer maneira. Em
qualquer caso, certamente reserve o maior detalhe para os efeitos que são
fundamentais para sua principal hipótese. Supondo que queremos denunciar todos os
nossos efeitos, nós
poderia fazer algo como isto (embora não como uma lista!):

Todos os efeitos são relatados como significativos em p <0,001, salvo indicação em


contrário. Houve um efeito significativo significativo da atratividade da data sobre o
interesse expresso pelo participante, F (2, 36) = 423,73. Contrasts revelaram que as
datas atraentes eram significativamente mais desejáveis do que as de aparência
média, F (1, 18) = 226.99, r = .96 e as datas feias eram significativamente menos
desejáveis do que as de aparência média, F (1, 18) = 160.07 , r = .95.

Houve também um efeito principal significativo da quantidade de carisma a data


possuída sobre o interesse expresso em namorá-los, F (2, 36) = 328,25. Os contrastes
revelaram que as datas com alto carisma eram significativamente mais desejáveis do
que datas com algum carisma, F (1, 18) = 109,94, r = 0,93, e os broncos eram
significativamente menos desejáveis do que datas com algum carisma, F (1, 18) =
227,94, r = 0,96.

Não houve efeito significativo do gênero, indicando que as classificações de


participantes do sexo masculino e feminino foram semelhantes, F (1, 18) = 0,005, p =
0,946, r = 0,2.

Houve um efeito de interação significativo entre a atratividade da data e o gênero do


participante, F (2, 36) = 80,43. Este efeito indica que a conveniência de datas de
diferentes níveis de atratividade diferiu em homens e mulheres. Para quebrar essa
interação, os contrastes compararam cada nível de atratividade com a aparência
média, entre participantes masculinos e femininos. Esses contrastes revelaram
interações significativas ao comparar pontuações masculinas e femininas com datas
atrativas em comparação com datas de aparência média, F (1, 18) = 43,26, r = 0,84, e
datas feias em comparação com datas de aparência média, F (1, 18) = 30,23, r = 0,79. O
gráfico de interação mostra que, embora o interesse dos machos e das mulheres
diminua à medida que a atratividade diminuiu, essa diminuição foi mais pronunciada
para os homens, sugerindo que, quando o carisma é ignorado, o interesse dos homens
em namorar uma pessoa foi mais influenciado pela aparência que as mulheres.

Houve um efeito de interação significativo entre o nível de carisma da data eo gênero


do participante, F (2, 36) = 62,45, indicando que a conveniência de datas de diferentes
níveis de carisma diferiu em homens e mulheres. Foram realizados contrastes
comparando cada nível de carisma com a categoria média de "algum carisma" entre
participantes do sexo masculino e feminino. Esses contrastes revelaram interações
significativas ao comparar as pontuações masculina e feminina com datas altamente
carismáticas em comparação com datas com algum carisma, F (1, 18) = 27,20, r = 0,78
e broncos em comparação com datas com algum carisma F (1, 18 ) = 33,69, r = 0,81. O
gráfico de interação revela que o interesse dos machos e das fêmeas diminuiu à
medida que o carisma diminuiu, mas essa diminuição foi mais pronunciada para as
mulheres, sugerindo que as mulheres o interesse em namorar uma pessoa foi mais
influenciado pelo seu carisma do que pelos homens.
Houve uma interação significativa de atração de carisma x, F (4, 72) = 36,63, indicando
que a conveniência de datas de diferentes níveis de carisma diferiu de acordo com sua
atratividade. Foram realizados contrastes comparando cada nível de carisma com a
categoria média de "algum carisma" em cada nível de atratividade em comparação
com a categoria de atratividade média. O primeiro contraste revelou uma interação
significativa ao comparar datas atraentes com datas de aparência média quando a data
apresentou alto carisma em comparação com algum carisma, F (1, 18) = 21,94, r = 0,74
e nos diz que as datas se tornaram menos atraentes houve um maior declínio no
interesse quando o carisma era baixo em comparação com quando o carisma era alto.

O segundo contraste, que comparou as datas atraentes com as datas de aparência


média, quando a data foi um bronco em comparação com quando eles tiveram algum
carisma, não foi significativo, F (1, 18) = 4,09, p = 0,058, r = 0,43. Este resultado sugere
que, à medida que as datas se tornaram menos atraentes, houve um declínio no
interesse quando o carisma era médio e quando não havia carisma.

O terceiro contraste, que comparou datas feias com datas de aparência média quando
a data apresentou alto carisma comparado ao carisma médio, foi significativo, F (1, 18)
= 6,23, p = 0,22, r = 0,51. Esse contraste implica que, à medida que as datas se
tornaram menos atraentes, houve um maior declínio no interesse quando o carisma
era médio em comparação com quando era alto. O contraste final comparou datas
feias com datas de aparência média, quando a data foi um sombrio em comparação
com quando eles tiveram algum carisma. Esse contraste foi altamente significativo, F
(1, 18) = 88.60, r = .91, e sugere que, à medida que as datas se tornaram menos
atraentes, o declínio no interesse nas datas com um pouco de carisma foi
significativamente maior do que para os broncos.

Finalmente, o aspecto × carisma × interação de gênero foi significativo F (4, 72) =


24,12. Isso indica que a análise de carisma de aparência × descrita anteriormente foi
diferente em participantes do sexo masculino e feminino. Os contrastes foram
utilizados para quebrar essa interação; esses contrastes compararam as pontuações
masculinas e femininas em cada nível de carisma em relação à categoria média de
algum carisma em cada nível de atratividade em relação à categoria de atratividade
média. O primeiro contraste revelou uma diferença não significante entre respostas
masculinas e femininas ao comparar datas atraentes com datas de aparência média
quando a data apresentou carisma alto em comparação com algum carisma, F (1, 18) =
0,93, p = 0,348, r = .22. Esse efeito sugere que, tanto para homens quanto para
mulheres, quando as datas se tornaram menos atraentes, houve um maior declínio no
interesse quando o carisma era médio comparado ao alto. O segundo contraste
investigou as diferenças entre homens e mulheres ao comparar datas atraentes para
datas de aparência média quando a data era um amortecedor em comparação com
quando apresentavam carisma médio, F (1, 18) = 60,67, r = 0,88. Este achado indica
que, para datas com média o carisma, a redução do interesse, na medida em que a
atratividade diminuiu, era quase igual em homens e mulheres, mas para datas difíceis,
a diminuição do interesse se essas datas fossem de aparência média e não atrativa era
muito mais dramática em homens do que em mulheres. O terceiro contraste procurou
diferenças entre homens e mulheres ao comparar datas feias com datas de aparência
média quando a data apresentava carisma alto comparado ao carisma médio, F (1, 18)
= 11,70, p = 0,003, r = 0,63 e nos diz que, para datas com carisma médio, a redução do
interesse como a atratividade diminuiu era quase igual em homens e mulheres, mas
para datas com alto carisma, a diminuição do interesse se essas datas eram feias e não
de aspecto médio era muito mais dramático em homens do que em mulheres. O
contraste final procurou diferenças entre homens e mulheres ao compararmos datas
feias com datas de aparência média quando a data era um amortecedor em
comparação com quando eles tinham carisma médio, F (1, 18) = 1,33, p = 0,263, r =.
26. Este efeito sugere que, tanto para homens como para mulheres, à medida que as
datas se tornam menos atraentes, o declínio no interesse nas datas com o carisma
médio foi significativamente maior do que para os broncos.
Análise Fatorial Exploratória – Capítulo 17

Quando usar a análise fatorial

Na ciência, muitas vezes precisamos medir coisas que não podem ser medidas
diretamente (as chamadas variáveis latentes). Por exemplo, os pesquisadores de
gerenciamento podem estar interessados em medir o "Burnout", que é quando
alguém que trabalhou muito em um projeto (um livro, por exemplo) por um longo
período de tempo, de repente, ele se mostra desprovido de motivação, inspiração e
quer repetidamente dar cabeçadas em seu computador, gritando "por favor, Mike,
destrava a porta, deixe-me sair do porão, eu preciso sentir o suave calor da luz solar na
minha pele". Você não pode medir o Burnout diretamente: ele tem muitas facetas. No
entanto, você pode medir diferentes aspectos do Burnout: você pode ter uma idéia de
motivação, níveis de estresse, se a pessoa tem idéias novas e assim por diante. Tendo
feito isso, seria útil saber se essas facetas refletem uma única variável. Dito de outra
forma, essas diferentes medidas são conduzidas pela mesma variável subjacente?

Este capítulo explora análise de fator e análise de componentes principais (PCA) -


técnicas para identificar clusters de variáveis. Essas técnicas têm três usos principais:
(1) compreender a estrutura de um conjunto de variáveis (por exemplo, Spearman e
Thurstone, análise de fator utilizada para tentar entender a estrutura da variável
latente "inteligência"); (2) para construir um questionário para medir uma variável
subjacente (por exemplo, você pode projetar um questionário para medir Burnout); e
(3) para reduzir um conjunto de dados para um tamanho mais gerenciável, mantendo
a maior parte da informação original possível (por exemplo, a análise fatorial pode ser
usada para resolver o problema da multicolinearidade que descobrimos no Capítulo 8
combinando variáveis colineares).

Existem numerosos exemplos do uso da análise fatorial na ciência. A maioria dos


leitores estará familiarizado com os traços de extroversão-introversão e neuroticidade
medidos por Eysenck (1953). A maioria dos outros questionários de personalidade
também são baseados na análise fatorial - especialmente o questionário de fatores de
personalidade de Cattell (1966a) 16PF - e esses inventários são frequentemente
usados para fins de recrutamento na indústria (e até mesmo por alguns grupos
religiosos). Os economistas, por exemplo, também podem usar a análise de fator para
ver se a produtividade, os lucros e a força de trabalho podem ser reduzidos a uma
dimensão subjacente ao crescimento da empresa, e Jeremy Miles me contou sobre um
bioquímico que o usou para analisar amostras de urina.

Tanto a análise fatorial como a PCA visam reduzir um conjunto de variáveis em um


conjunto menor de dimensões (denominados "fatores" na análise fatorial e
"componentes" em PCA). Para os não estatísticos, como eu, as diferenças entre um
componente e um fator são difíceis de conceituar (ambos são modelos lineares) e as
diferenças estão escondidas nas matemáticas por trás das técnicas. No entanto,
existem diferenças importantes entre os técnicas, que discutirei oportunamente. A
maioria das questões práticas são as mesmas, independentemente de você fazer
análise fatorial ou PCA, então, uma vez que a teoria acabou, você pode aplicar
qualquer conselho que eu dê a qualquer análise de fator ou PCA.

Fatores e componentes

Se medimos várias variáveis ou perguntarmos algumas questões sobre si mesmos, a


correlação entre cada par de variáveis (ou perguntas) pode ser organizada em uma
tabela (assim como a saída de uma análise de correlação, como se vê no Capítulo 7).
Esta tabela às vezes é chamada de matriz R, apenas para assustá-lo. Os elementos
diagonais de uma matriz R são todos porque cada variável se correlacionará
perfeitamente com ela mesma. Os elementos fora da diagonal são os coeficientes de
correlação entre pares de variáveis ou questões. A análise do fator tenta alcançar a
parcimônia, explicando a quantidade máxima de variância comum em uma matriz de
correlação usando o menor número de construções explicativas. Essas "construções
explicativas" são conhecidas como fatores (ou variáveis latentes) na análise fatorial e
representam variáveis de cluster que se correlacionam altamente entre si. PCA tenta
explicar a quantidade máxima de variância total (não apenas variância comum) em
uma matriz de correlação, transformando as variáveis originais em componentes
lineares.

Imagine que queríamos medir diferentes aspectos do que poderia tornar a pessoa
popular. Poderíamos administrar várias medidas que acreditamos tocar diferentes
aspectos da popularidade. Assim, podemos medir as habilidades sociais de uma pessoa
(Habilidades sociais), seu egoísmo (egoísta), quão interessantes os acham (Interesse), a
proporção de tempo que passam falando sobre a outra pessoa durante uma conversa
(Talk1), a proporção de Tempo que eles gastam falando sobre si mesmos (Talk2), e sua
propensão para mentir para as pessoas (Mentiroso). Calculamos os coeficientes de
correlação para cada par de variáveis e criamos uma matriz R. A Figura 17.2 mostra
essa matriz. Parece haver dois grupos de variáveis inter-relacionadas. Primeiro, a
quantidade que alguém fala sobre a outra pessoa durante uma conversa correlaciona-
se altamente com o nível de habilidades sociais e com o quão interessante o outro
encontra essa pessoa, e as habilidades sociais se correlacionam bem com o quanto os
outros percebem que uma pessoa é. Esses relacionamentos indicam que quanto
melhor for suas habilidades sociais, mais interessantes e falantes serão. Em segundo
lugar, a quantidade que as pessoas falam sobre si mesmas em uma conversa
correlaciona-se com o quanto eles são egoístas e quanto eles mentem. Ser egoísta
também se correlaciona com o grau em que uma pessoa conta mentiras. Em suma, as
pessoas egoístas provavelmente mentirão e falar sobre si mesmas.
A análise de fatores e PCA visam reduzir essa matriz R para baixo em um conjunto
menor de dimensões. Na análise fatorial, essas dimensões, ou fatores, são estimados a
partir dos dados e acredita-se que refletem construções que não podem ser medidas
diretamente. Neste exemplo, parece haver dois clusters que se enquadram na conta. O
primeiro "fator" parece se relacionar com a sociabilidade geral, enquanto o segundo
"fator" parece se relacionar com a maneira pela qual uma pessoa trata os outros
socialmente (podemos chamá-lo de Consideração). Pode, portanto, ser assumido que a
popularidade depende não apenas da sua capacidade de socializar, mas também de se
você é desconsiderador com os outros. A PCA, ao contrário, transforma os dados em
um conjunto de componentes lineares; não estima variáveis não medidas, apenas
transforma as medidas. Estritamente falando, então, não devemos interpretar os
componentes como variáveis não mensuradas. Apesar dessas diferenças, ambas as
técnicas procuram variáveis que se correlacionam altamente com um grupo de outras
variáveis, mas não se correlacionam com variáveis fora desse grupo.

Representação gráfica

Fatores e componentes também podem ser visualizados: você pode imaginar fatores
como sendo o eixo de um gráfico ao longo do qual traçamos variáveis. As coordenadas
de variáveis ao longo de cada eixo representam a força da relação entre essa variável e
cada fator. Num mundo ideal, uma variável deve ter uma grande coordenada para um
dos eixos e pequenas coordenadas para quaisquer outros fatores. Esse cenário
indicaria que essa variável particular dizia respeito a apenas um fator. As variáveis que
possuem coordenadas grandes no mesmo eixo são assumidas para medir diferentes
aspectos de alguma dimensão subjacente comum. A coordenada de uma variável ao
longo de um eixo de classificação é conhecida como um fator de carregamento (ou
carregamento de componentes). O fator de carga pode ser pensado como a correlação
de Pearson entre um fator e uma variável (ver Jane Superbrain Box 17.1). Pelo que
sabemos sobre a interpretação dos coeficientes de correlação (ver Seção 7.4.2.2), deve
ficar claro que, se cobrimos o fator de carga, obtemos uma medida da importância
substancial de uma determinada variável para um fator.

A Figura 17.3 mostra esse gráfico para os dados de popularidade (em que havia apenas
dois fatores). A primeira coisa a notar é que, para ambos os fatores, a linha do eixo
varia de -1 a 1, que são os limites externos de um coeficiente de correlação. Os
triângulos representam as três variáveis que possuem altas cargas fatoriais (ou seja,
uma relação forte) com fator 1 (Sociabilidade: eixo horizontal), mas têm uma baixa
correlação com o fator 2 (Consideração: eixo vertical). Por outro lado, os círculos
representam variáveis que têm altas cargas fatoriais com consideração, mas baixas
cargas com sociabilidade. Este enredo mostra o que encontramos na matriz R: o
egoísmo, a quantidade que uma pessoa fala sobre si mesma e sua propensão a mentir
contribuem para um fator que poderia ser chamado de consideração dos outros; e
quanto uma pessoa se interessa por outras pessoas, o quão interessante elas são e seu
nível de habilidades sociais contribuem para um segundo fator, a sociabilidade. Claro,
se um terceiro fator existisse dentro desses dados, ele poderia ser representado por
um terceiro eixo (criando um gráfico 3-D). Se houver mais de três fatores em um
conjunto de dados, eles não podem ser representados por um gráfico bidimensional.
Representação matemática

Os eixos da Figura 17.3, que representam fatores, são linhas retas e qualquer linha reta
pode ser descrita matematicamente por uma equação familiar. A equação (17.1) nos
lembra a equação que descreve um modelo linear. Um componente no PCA pode ser
descrito da mesma maneira. Você notará que não há intercepto na equação porque as
linhas se cruzam em zero (daí a intercepção é zero), e também não há termo de erro
porque estamos simplesmente transformando as variáveis. O bs na equação
representa as cargas.

Cumprindo nosso exemplo de popularidade, descobrimos que havia dois


componentes: sociabilidade geral e consideração. Podemos, portanto, construir uma
equação que descreva cada fator em termos das variáveis que foram medidas. As
equações são as seguintes:

Primeiro, note que as equações são idênticas na forma: ambos incluem todas as
variáveis que foram medidas. No entanto, os valores de b nas duas equações serão
diferentes (dependendo da importância relativa de cada variável para o componente
específico). Na verdade, podemos substituir cada valor de b com a coordenada dessa
variável no gráfico na Figura 17.3 (isto é, substituir os valores de b com as cargas de
fator). As equações resultantes são as seguintes:
Observe que, para o componente Sociability, os valores de b são altos para Talk1,
habilidades sociais e juros. Para as variáveis restantes (Talk2, Selfish e Liar), os valores
de b são muito baixos (perto de 0). Isso nos diz que três das variáveis são muito
importantes para esse componente (aqueles com valores altos de b) e três são muito
sem importância (aqueles com valores baixos de b). Vimos que esse ponto é
verdadeiro por causa do fato de que três variáveis se agrupavam altamente no gráfico
do fator (Figura 17.3). O ponto a seguir aqui é que o gráfico do fator e essas equações
representam a mesma coisa: as cargas fatoriais no enredo são simplesmente os
valores b nessas equações. Para o segundo fator, Consideração, o padrão oposto pode
ser visto: Talk2, Selfish e Mentiroso, todos têm valores altos de b, enquanto as três
variáveis restantes possuem valores de B próximos de 0. Em um mundo ideal, as
variáveis teriam muito alta b - valores para um componente e valores B muito baixos
para todos os outros componentes. Os fatores na análise fatorial não são
representados da mesma forma que os componentes. A Equação (17.4) mostra como
um fator é definido: as letras gregas representam matrizes contendo números. Se
colocarmos as letras gregas através da máquina de tradução mágica de Andy, então
podemos parar de nos preocupar com o que as matrizes contêm e se concentrar no
que representam. Na análise fatorial, as pontuações nas variáveis medidas são
previstas a partir das médias dessas variáveis, mais as pontuações de uma pessoa nos
fatores comuns (ou seja, fatores que explicam as correlações entre as variáveis)
multiplicados pelo seu fator de carregamento, mais pontuações em quaisquer fatores
únicos dentro dos dados (fatores que não podem explicar as correlações entre
variáveis).

Em certo sentido, o modelo de análise fatorial desliza o PCA na sua cabeça: no PCA,
prevemos componentes das variáveis medidas, mas na análise fatorial, prevemos as
variáveis medidas dos fatores subjacentes. Por exemplo, os psicólogos geralmente
estão interessados em fatores, porque eles estão interessados em como as coisas
acontecem dentro das cabeças das pessoas (as variáveis latentes) afetam a forma
como elas respondem as questões (as variáveis medidas). A outra grande diferença é
que, ao contrário do PCA, a análise fatorial contém um termo de erro (δ é composto de
pontuação em fatores únicos e erro de medição). O fato de a PCA assumir que não há
nenhum erro de medição perturba muitas pessoas que utilizam análise fatorial. Tanto
a análise fatorica como a PCA são modelos lineares em que as cargas são usadas como
pesos. Em ambos os casos, essas cargas podem ser expressas como uma matriz em
que as colunas representam cada fator e as linhas representam as cargas de cada
variável em cada fator. Para os dados de popularidade, essa matriz teria duas colunas
(uma para cada fator) e seis linhas (uma para cada variável). Esta matriz, Λ, pode ser
vista abaixo. É chamado de matriz de fatores ou matriz de componentes (se estiver
fazendo análise de componente principal) - veja Jane Superbrain Box 17.1 para
descobrir as diferentes formas dessa matriz. Tente relacionar os elementos com os
carregamentos na equação (17.3) para lhe dar uma idéia do que esta matriz
representa (no caso da PCA). Por exemplo, a linha superior representa a primeira
variável, Talk1, que teve um carregamento de .87 para o primeiro fator (Sociability) e
um carregamento de .01 para o segundo fator (Consideração).

O principal pressuposto na análise fatorial (mas não PCA) é que esses fatores
algébricos representam dimensões do mundo real, cuja natureza deve ser adivinhada
ao verificar quais variáveis têm cargas elevadas no mesmo fator. Assim, os psicólogos
podem acreditar que os fatores representam dimensões da psique, os pesquisadores
da educação podem acreditar que representam habilidades, e os sociólogos podem
acreditar que representam raças ou classes sociais. No entanto, é um ponto
extremamente controverso: alguns acreditam que as dimensões derivadas da análise
fatorial são reais apenas no sentido estatístico - e são ficções do mundo real.

Pontuação do fator

Um fator pode ser descrito em termos das variáveis medidas e sua importância relativa
para esse fator. Portanto, tendo descoberto quais fatores existem, e estimou a
equação que os descreve, deve ser possível estimar a pontuação de uma pessoa em
um fator, com base em suas pontuações para as variáveis constituintes; Estes são
conhecidos como pontuação dos fatores (ou pontuação dos componentes em PCA).
Por exemplo, se quisermos obter uma pontuação de sociabilidade para uma pessoa em
particular após a PCA, poderíamos colocar suas pontuações nas várias medidas na
equação (17.3). Este método é conhecido como uma média ponderada e raramente é
usado porque é excessivamente simplista, mas é a maneira mais fácil de explicar o
princípio. Por exemplo, imagine que nossas seis medidas de personalidade variam de 1
a 10 e que alguém avaliou o seguinte: Talk1 (4), Social Skills (9), Interest (8), Talk2 (6),
Selfish (8) e Liar (6 ). Poderíamos conectar esses valores à equação (17.3) para obter
uma pontuação para a sociabilidade desta pessoa e sua consideração para outros (ver
equação (17.5)). As pontuações resultantes de 19.22 e 15.21 refletem o grau em que
essa pessoa é sociável e sua desconsideração em relação aos outros, respectivamente.
Essa pessoa obtém maior relevância sobre a sociabilidade do que a desconsideração.
No entanto, as escalas de medida utilizadas influenciarão os escores resultantes, e se
diferentes variáveis usam diferentes escalas de medição, os escores dos fatores para
diferentes fatores não podem ser comparados. Como tal, este método de cálculo dos
escores dos fatores é pobre e os métodos mais sofisticados são geralmente usados:

JANE SUPERBRAIN

Qual a diferença entre uma matriz de padrões e uma matriz de estrutura?


Até agora, tenho sido um pouco vago quanto ao carregamento de fator. Às vezes, eu
disse que essas cargas podem ser pensadas como a correlação entre uma variável e
um determinado fator, e outras vezes descrevi essas cargas em termos de coeficientes
de regressão (b). Em termos gerais, tanto os coeficientes de correlação como os
coeficientes de regressão representam a relação entre um modelo linear e variável, de
modo que minha imprecisão pode não ser a evidência de buffonery que inicialmente
parece. A mensagem de levar a casa é que os carregamentos de fator nos dizem sobre
a contribuição relativa que uma variável faz para um fator. Enquanto entender bem,
você ficará bem. No entanto, as cargas de fatores em uma determinada análise podem
ser tantos coeficientes de correlação quanto coeficientes de regressão. No tempo de
algumas seções, descobriremos que a interpretação da análise fatorial é muito útil por
uma técnica conhecida como rotação. Sem entrar em detalhes, existem dois tipos:
rotação ortogonal e oblíqua (ver Seção 17.4.6). Quando a rotação ortogonal é utilizada,
todos os fatores subjacentes são assumidos como independentes e o fator de carga é a
correlação entre o fator e a variável, mas também o coeficiente de regressão. Dito de
outro modo, os valores dos coeficientes de correlação são os mesmos dos valores dos
coeficientes de regressão. No entanto, existem situações em que os fatores
subjacentes são assumidos como relacionados ou correlacionados entre si. Nessas
situações, a rotação oblíqua é usada e as correlações resultantes entre variáveis e
fatores serão diferentes dos coeficientes de regressão correspondentes. Neste caso,
existem, de fato, dois conjuntos diferentes de fatores de carga: os coeficientes de
correlação entre cada variável e fator (que são colocados na matriz da estrutura do
fator) e os coeficientes de regressão para cada variável em cada fator (que são
colocados em a matriz do padrão de fatores). Estes coeficientes podem ter
interpretações bastante diferentes (ver Graham, Guthrie, & Thompson, 2003).

O método de regressão

Existem várias técnicas sofisticadas para calcular os escores de fatores que usam
coeficientes de pontuação de fatores como pesos, em vez de usar as cargas fatoriais.
Os coeficientes de pontuação do fator podem ser calculados de várias maneiras. A
maneira mais simples é o método de regressão. Neste método, as cargas de fatores
são ajustadas para ter em conta as correlações iniciais entre as variáveis; ao fazê-lo, as
diferenças em unidades de medida e variações variáveis são estabilizadas. Para obter a
matriz de coeficientes de pontuação de fatores (B), multiplicamos a matriz de carga de
fatores pelo inverso (R-1) da correlação original ou matriz R (este é o mesmo processo
que é usado para estimar o bs em regressão ordinária ). Você pode lembrar do capítulo
anterior que as matrizes não podem ser divididas (ver Seção 16.4.4.1). Portanto, o
equivalente a dividir por uma matriz é multiplicar pelo inverso dessa matriz.
Conceitualmente falando, então, ao multiplicar a matriz de carga de fatores pelo
inverso da matriz de correlação, estamos dividindo as cargas fatoriais pelos
coeficientes de correlação. A matriz de pontuação de fatores resultante representa a
relação entre cada variável e cada fator, levando em consideração as relações originais
entre pares de variáveis. Como tal, esta matriz representa uma medida mais pura da
relação única entre variáveis e fatores. A técnica de regressão garante que os escores
dos fatores resultantes tenham uma média de 0 e uma variância igual à correlação
múltipla quadrática entre os escores estimados do fator e os valores dos fatores reais.
No entanto, a desvantagem é que as pontuações podem relacionar-se não apenas com
outros fatores além daqueles em que se baseiam, mas também com outros escores de
fatores de um fator ortogonal diferente.

Outros métodos

Para superar os problemas associados à técnica de regressão, foram propostos dois


ajustes: o método Bartlett e o método Anderson-Rubin. O método de Bartlett produz
pontuações que são imparciais e que se correlacionam apenas com seu próprio fator.
O desvio padrão e médio dos escores é o mesmo que para o método de regressão. No
entanto, os escores dos fatores ainda podem se correlacionar entre si. O método
Anderson-Rubin é uma modificação do método de Bartlett que produz escores de
fatores que não estão correlacionados e padronizados (eles têm uma média de 0 e um
desvio padrão de 1). Tabachnick e Fidell (2012) concluem que o método de Anderson-
Rubin é melhor quando os escores não correlacionados são necessários, mas que o
método de regressão é preferido em outras circunstâncias, simplesmente porque é
mais fácil de entender. Embora não seja importante que você entenda a matemática
por trás de qualquer dos métodos, é importante que você entenda o que os escores
dos fatores representam: a saber, uma pontuação composta para cada indivíduo em
um fator particular.

Usos dos escores de fatores

Existem vários usos das pontuações dos fatores. Primeiro, se o objetivo da análise
fatorial é reduzir um grande conjunto de dados para um subconjunto menor de
variáveis de medição, então os escores dos fatores nos indicam a pontuação de um
indivíduo neste subconjunto de medidas. Portanto, qualquer análise adicional pode ser
realizada nos escores dos fatores e não nos dados originais. Por exemplo, poderíamos
realizar um teste t para ver se as fêmeas são significativamente mais sociáveis do que
os homens que usam as pontuações dos fatores para a sociabilidade. Um segundo uso
é superar os problemas de colinearidade na regressão. Se, após uma análise de
regressão múltipla, identificamos fontes de multicolinearidade, então a interpretação
da análise está comprometida (ver Seção 8.5.3). Nessa situação, podemos realizar um
PCA nas variáveis preditoras para reduzi-las a um subconjunto de fatores não
correlacionados. As variáveis que causam a multicolinearidade se combinarão para
formar um componente. Se, então, reexaminemos a regressão, mas usando as
pontuações dos componentes como variáveis preditoras, então o problema da
multicolinearidade deve desaparecer (porque as variáveis agora são combinadas em
um único componente). Há maneiras pelas quais podemos garantir que os
componentes não estejam correlacionados (uma maneira é usar o método Anderson-
Rubin - veja acima). Ao usar os escores de componentes não correlacionados como
preditores na regressão, podemos ter certeza de que não haverá correlação entre
preditores - portanto, sem multicolinearidade.

Fatores de descoberta

Até agora, você deve ter alguma compreensão sobre o que é um fator e o que é um
componente, então vamos agora aprofundar em como encontrar ou estimar esses
animais míticos.

Escolhendo um método

Existem vários métodos para desenterrar fatores em seus dados. O método escolhido
dependerá do que você deseja fazer com a análise. Tinsley e Tinsley (1987) dão uma
excelente conta dos diferentes métodos disponíveis. Há duas coisas a considerar: se
deseja generalizar os resultados da sua amostra para uma população e se você está
explorando seus dados ou testando uma hipótese específica. Este capítulo descreve
técnicas para explorar dados usando a análise fatorial. Testar hipóteses sobre as
estruturas de variáveis latentes e suas relações entre si requer uma complexidade
considerável e pode ser feito com programas de computador, como o pacote irmão da
SPSS, a AMOS. Os interessados em técnicas de teste de hipóteses (conhecidas como
análise fatorial de confirmação) são aconselhados a ler Pedhazur e Schmelkin (1991:
Capítulo 23) para uma introdução.

Supondo que desejemos explorar nossos dados, então precisamos considerar se


queremos aplicar nossos resultados à amostra coletada (método descritivo) ou
generalizar nossos achados para uma população (métodos inferenciais). Quando a
análise fatorial foi originalmente desenvolvida, assumiu-se que seria usado para
explorar dados para gerar hipóteses futuras. Como tal, assumiu-se que a técnica seria
aplicada a toda a população de interesse. Portanto, certas técnicas assumem que a
amostra utilizada é a população e, portanto, os resultados não podem ser extrapolados
além dessa amostra particular. A análise de componentes principais é um exemplo
dessas técnicas, assim como análise de fatores principais (factoring de eixo principal) e
análise de covariância de imagem (factoring de imagem). Destes, análise de
componentes principais e análise de fatores principais são os métodos preferidos e
geralmente resultam em soluções semelhantes (ver Seção 17.4.3). Quando esses
métodos são usados, as conclusões são restritas à amostra coletada e a generalização
dos resultados pode ser alcançada somente se a análise usando diferentes amostras
revelar a mesma estrutura de fatores (ou seja, validação cruzada). Outra abordagem é
assumir que os participantes são selecionados aleatoriamente e que as variáveis
medidas constituem a população de variáveis em que nos interessamos. Ao assumir
isso, é possível generalizar dos participantes da amostra para uma população maior,
mas com a ressalva de que todos os achados são verdadeiros somente para o conjunto
de variáveis medidas (porque assumimos que este conjunto constitui a população
inteira de variáveis). As técnicas desta categoria incluem o método de máxima
verossimilhança (ver Harman, 1976) e o factoring alfa de Kaiser. A escolha do método
depende em grande parte das generalizações, se houver, que você deseja fazer a partir
de seus dados.

Comunalidade

A ideia de que variância é e como ela é calculada deve ser, agora, um velho amigo com
quem você aprecia chá e biscoitos (se não, veja o Capítulo 2). A variância total para
uma variável particular no R-matrix terá dois componentes: alguns serão
compartilhados com outras variáveis ou medidas (variância comum) e algumas delas
serão específicas dessa medida (variância única). Nós tendemos a usar o termo
variação única para se referir a variância que pode ser atribuída de forma confiável a
apenas uma medida. No entanto, existe também uma variação específica de uma
medida, mas não de forma confiável; essa variância é chamada de erro ou variância
aleatória. A proporção de variância comum presente em uma variável é conhecida
como a comunalidade. Como tal, uma variável que não possui variação única (ou
variação aleatória) teria uma comunalidade de 1; uma variável que não compartilha
nenhuma variância com qualquer outra variável teria uma comunalidade de 0. Na
análise fatorial, estamos interessados em encontrar dimensões subjacentes comuns
nos dados e, portanto, estamos principalmente interessados apenas na variância
comum. Portanto, precisamos saber quanto da variância presente em nossos dados é
variância comum. Isso nos apresenta um impasse lógico: para fazer a análise fatorial,
precisamos conhecer a proporção de variância comum presente nos dados, mas a
única maneira de descobrir a extensão da variância comum é realizar uma análise
fatorial! Existem duas maneiras de abordar esse problema. O primeiro é assumir que
toda a variância é variância comum: assumimos que a comunalidade de cada variável é
1. Ao fazer essa suposição, transporemos apenas nossos dados originais para
componentes lineares constituintes. Este procedimento é PCA. Lembre-se que eu disse
anteriormente que o PCA não assume nenhum erro de medição? Bem, ao estabelecer
as comunalidades para 1, estamos assumindo que toda variância é variância comum
(não há variação aleatória em absoluto). A segunda abordagem é estimar a quantidade
de variância comum, estimando valores de comunidade para cada variável. Existem
vários métodos para estimar as comunalidades, mas o mais utilizado (incluindo o
factoring alfa) é usar a correlação múltipla quadrada (SMC) de cada variável com todas
as demais. Então, para os dados de popularidade, imagine que você executou uma
regressão múltipla usando uma medida (egoísta) como o resultado e as outras cinco
medidas como preditores: o R2 múltiplo resultante (ver Seção 8.2.4) seria usado como
uma estimativa da comunalidade para a variável egoísta. Esta segunda abordagem é
usada na análise fatorial. Essas estimativas permitem que a análise fatorial seja feita.
Uma vez que os fatores subjacentes foram extraídos, novas comunalidades podem ser
calculadas que representam a correlação múltipla entre cada variável e os fatores
extraídos. Portanto, a comunalidade é uma medida da proporção de variância
explicada pelos fatores extraídos.

Análise de fator ou PCA?

Acabei de explicar que existem duas abordagens para localizar as dimensões


subjacentes de um conjunto de dados: análise de fator e análise de componentes
principais. Essas técnicas diferem nas estimativas de comunidade que são usadas.
Como eu já havia sugerido antes, a análise fatorial deriva de um modelo matemático a
partir do qual os fatores são estimados, enquanto a PCA decompõe os dados originais
em um conjunto de variáveis lineares (ver Dunteman, 1989, Capítulo 8, para mais
detalhes sobre as diferenças entre os procedimentos). Como tal, apenas a análise
fatorial pode estimar os fatores subjacentes e confia em várias hipóteses para que
essas estimativas sejam precisas. O PCA está preocupado apenas com o
estabelecimento de quais componentes lineares existem dentro dos dados e como
uma variável particular pode contribuir para esse componente.

Com base em uma extensa revisão da literatura, Guadagnoli e Velicer (1988)


concluíram que as soluções geradas a partir de PCA diferem pouco das derivadas de
técnicas analíticas de fatores. Na realidade, com 30 ou mais variáveis e comunalidades
superiores a 0,7 para todas as variáveis, diferentes soluções são improváveis; no
entanto, com menos de 20 variáveis e quaisquer comunalidades baixas (<0.4) podem
ocorrer (Stevens, 2002). O outro lado desse argumento é descrito de forma eloquente
por Cliff (1987), que observou que os defensores da análise fatorial "insistem que a
análise de componentes é, na melhor das hipóteses, uma análise de fator comum com
algum erro adicionado e, na pior das hipóteses, uma mistura inconfundível de coisas
das quais nada pode ser determinado '(pág. 349). Na verdade, o sentimento é forte
nesta questão, com alguns argumentando que, quando o PCA é usado, não deve ser
descrito como uma análise fatorial (oops!) E que você não deve imputar significado
substancial aos componentes resultantes. Em última análise, como espero ter
esclarecido, eles estão fazendo coisas ligeiramente diferentes.

No MANOVA, porque estávamos comparando grupos, acabamos examinando as


variáveis ou componentes da matriz SSCP que representavam a proporção da variância
do modelo para a variância do erro. Essas variáveis foram dimensões lineares que
separaram os grupos testados e vimos que as variáveis dependentes foram mapeadas
nesses componentes subjacentes. Em suma, analisamos se os grupos poderiam ser
separados por alguma combinação linear das variáveis dependentes. Essas variáveis
foram encontradas calculando os autovetores do SSCP. O número de variáveis obtidas
foi o menor de p (o número de variáveis dependentes) ou k-1 (onde k é o número de
grupos).

No PCA fazemos a mesma coisa, mas usamos a matriz de correlação geral (porque não
estamos interessados em comparar grupos de pontuações). Para simplificar as coisas
um pouco, tomamos uma matriz de correlação e calculamos as variáveis. Não há
grupos de observações, pelo que o número de variáveis calculadas sempre será igual
ao número de variáveis medidas (p). As variáveis são descritas, como para MANOVA,
pelos autovetores associados à matriz de correlação. Os elementos dos autovetores
são os pesos de cada variável na variável. Esses valores são as cargas descritas
anteriormente (ou seja, os valores de b na equação (16.5)). O maior autovalor
associado a cada um dos eigenvectors fornece um único indicador da importância
substancial de cada componente. A idéia básica é que nós retem componentes com
autovalores relativamente grandes e ignoramos aqueles com autovalores
relativamente pequenos.

A análise fatorial funciona de forma diferente, mas existem semelhanças. Em vez de


usar a matriz de correlação, a análise dos fatores começa pela estimativa das
comunalidadesentre variáveis usando o SMC (como descrito anteriormente). Em
seguida, substitui a diagonal da matriz de correlação (os 1s) com essas estimativas. Em
seguida, os autovetores e autovalores associados desta matriz são computados.
Novamente, esses autovalores nos dizem sobre a importância substancial dos fatores
e, com base neles, é tomada uma decisão sobre quantos fatores reter. As cargas e as
comunalidadessão então estimadas utilizando apenas os fatores retidos.

Extração de fator: autovalores (Eigenvalues) e trama (Scree Plots)

Tanto em PCA quanto na análise fatorial, nem todos os fatores são mantidos. O
processo de decidir quantos fatores manter é chamado de extração. Eu mencionei
acima que os autovalores associados a uma variação indicam a importância substancial
desse fator. Portanto, é lógico reter apenas fatores com grandes autovalores. Esta
seção analisa a forma como determinamos se um autovalor é suficientemente grande
para representar um fator significativo.
Cattell (1966b) sugeriu traçar cada autovalor (eixo Y) contra o fator com o qual ele está
associado (eixo X). Este gráfico é conhecido como uma trama de sucesso (porque
parece um rosto de pedra com uma pilha de detritos, ou escória, na parte inferior). Eu
mencionei anteriormente que é possível obter tantos fatores como variáveis e que
cada um possui um autovalor associado. Ao representar os autovalores, a importância
relativa de cada fator torna-se aparente. Normalmente, haverá alguns fatores com
autovalores bastante elevados e muitos fatores com autovalores relativamente baixos
e, portanto, esse gráfico tem uma forma muito característica: há uma descida nítida na
curva seguida de uma saída (ver Figura 17.4). O ponto de inflexão é onde o declive da
linha muda dramaticamente, e Cattell (1966b) sugeriu usar este ponto como o corte
para os fatores de retenção. Na Figura 17.4, imagine desenhar duas linhas retas (as
linhas tracejadas vermelhas), uma que resume a parte vertical do enredo e a outra que
resume a parte horizontal. O ponto de inflexão é o ponto de dados em que essas duas
linhas se encontram. Você retém apenas fatores à esquerda do ponto de inflexão (e
não inclui o fator no ponto de inflexão em si) 4, então, em ambos os exemplos na
Figura 17.4, extrairíamos dois fatores porque o ponto de inflexão ocorre no terceiro
dado ponto (fator). Com uma amostra de mais de 200 participantes, a trama scree
fornece um critério bastante confiável para a seleção de fator (Stevens, 2002).

Embora as parcelas são muito úteis, Kaiser (1960) recomendou manter todos os
fatores com autovalores superiores a 1. Esse critério baseia-se na idéia de que os
autovalores representam a quantidade de variação explicada por um fator e que um
autovalor de 1 representa uma quantidade substancial de variação. Jolliffe (1972,
1986) relata que o critério de Kaiser é muito rígido e sugeriu manter todos os fatores
com autovalores superiores a 0,7. A diferença entre quantos fatores são mantidos
usando os métodos de Kaiser em comparação com Jolliffe pode ser dramática.

Você pode imaginar como os métodos se comparam. De um modo geral, o critério de


Kaiser supera o número de fatores a reter (ver Jane Superbrain, caixa 17.2), mas há
algumas evidências de que é preciso quando o número de variáveis é inferior a 30 e as
comunalidadesresultantes (após a extração) são maiores do que 0,7. O critério de
Kaiser também pode ser preciso quando o tamanho da amostra excede 250 e a média
comum é maior ou igual a 0,6. Em qualquer outra circunstância, é melhor recomendar
o uso de uma trama de scree, desde que o tamanho da amostra seja maior que 200
(veja Stevens, 2002, para mais detalhes). Por padrão, o SPSS usa o critério de Kaiser
para extrair fatores. Portanto, se você usa a trama do scree para determinar quantos
fatores são mantidos, talvez seja necessário executar a análise especificando que o
SPSS extrai a quantidade de fatores que você precisa.

Como é frequentemente o caso das estatísticas, os três critérios muitas vezes


fornecem respostas diferentes. Nessas situações, as comunalidades dos fatores
precisam ser consideradas. Lembre-se de que as comunalidades representam a
variância comum: se os valores são 1, toda variância comum é contabilizada e, se os
valores são 0, nenhuma variância comum é contabilizada. Tanto em PCA quanto em
análise fatorial, determinamos quantos fatores / componentes extraímos e depois re-
estimo as comunidades. Os fatores que conservamos não explicam toda a variação nos
dados (porque descartamos alguma informação) e, portanto, as comunalidades após a
extração serão sempre menores que 1. Os fatores retidos não mapeiam perfeitamente
as variáveis originais - apenas refletem a variância comum presente nos dados. Se as
comunalidades representam uma perda de informação, elas são estatísticas
importantes. Quanto mais as comunalidades são para 1, melhores são os nossos
fatores para explicar os dados originais. É lógico que quanto mais fatores forem
mantidos, maiores serão as comunalidades (porque menos informações são
descartadas); portanto, as comunalidades são bons índices de se poucos fatores foram
mantidos. De fato, com análise de fatores de mínimos quadrados generalizados e
análise de fator de máxima probabilidade, você pode obter uma medida estatística da
bondade de ajuste da solução de fator (veja o próximo capítulo para obter mais testes
de qualidade). Isso basicamente mede a proporção de variância que explica a solução
do fator (assim, pode ser pensado como comparando comunalidades antes e depois da
extração).

Como uma última palavra de conselho, sua decisão sobre quantos fatores extrair
dependerá também de por que você está fazendo a análise; Por exemplo, se você está
tentando superar problemas de multicolinearidade na regressão, então talvez seja
melhor extrair muitos fatores do que poucos.

Melhorando a interpretação: rotação de fatores

Uma vez que os fatores foram extraídos, é possível calcular o grau de carga das
variáveis nesses fatores (ou seja, calcular as cargas para cada variável em cada fator).
Geralmente, você verá que a maioria das variáveis tem cargas elevadas no fator mais
importante e pequenas cargas em todos os outros fatores. Essa característica dificulta
a interpretação e, portanto, uma técnica chamada rotação de fatores é usada para
discriminar fatores. Se visualizarmos nossos fatores como um eixo ao longo do qual as
variáveis podem ser plotadas, a rotação do fator rota efetivamente esses eixos, de
modo que as variáveis sejam carregadas no máximo em apenas um fator. A Figura 17.5
demonstra como esse processo funciona com um exemplo no qual existem apenas
dois fatores. Imagine que um sociólogo estava interessado em classificar professores
universitários como um grupo demográfico. Ela descobriu que duas dimensões
subjacentes descrevem melhor este grupo: alcoolismo e realização (vá para qualquer
conferência acadêmica e você verá por que eu escolhi essas dimensões). O primeiro
fator, o alcoolismo, tem um conjunto de variáveis associadas a ele (círculos verdes), e
essas podem ser medidas como o número de unidades bebidas em uma semana,
dependência e personalidade obsessiva. O segundo fator, a realização, também tem
um conjunto de variáveis associadas a ele (círculos vermelhos) e estas podem ser
medidas relacionadas ao salário, status do trabalho e número de publicações de
pesquisa. Inicialmente, as linhas completas representam os fatores e, observando as
coordenadas, deve ficar claro que os círculos vermelhos têm cargas elevadas para o
fator 2 (eles estão muito para este eixo) e cargas médias para o fator 1 (eles não são
muito até este eixo). Por outro lado, os círculos verdes têm cargas elevadas para o
fator 1 e as cargas médias para o fator 2. Ao girar os eixos (linhas tracejadas),
asseguramos que ambos os clusters de variáveis sejam interceptados pelo fator ao
qual mais se relacionam. Assim, após a rotação, as cargas das variáveis são
maximizadas em um fator (o fator que intersecta o cluster) e minimizado no (s) fator
(s) restante (s). Se um eixo passa através de um conjunto de variáveis, essas variáveis
terão um carregamento de aproximadamente zero no eixo oposto. Se essa idéia é
confusa, observe a Figura 17.5 e pense nos valores das coordenadas antes e depois da
rotação (isso é melhor conseguido girando o livro quando você olha os eixos girados).

JANE SUPERBRAIN 17.2

Quantos fatores eu reter?

Existem problemas fundamentais com o critério de Kaiser (Nunnally & Bernstein,


1994). Por um lado, um autovalor de 1 significa coisas diferentes em análises
diferentes: com 100 variáveis, significa que um fator explica 1% da variância, mas com
10 variáveis significa que um fator explica 10% da variância. Claramente, essas duas
situações são muito diferentes e uma única regra que abrange ambos é inadequada.
Um autovalor de 1 também significa apenas que o fator explica tanta variância quanto
uma variável, o que, em vez disso, derrota a intenção original da análise para reduzir as
variáveis para fatores subjacentes "mais substantivos". Conseqüentemente, o critério
de Kaiser muitas vezes superestima o número de fatores. Por este argumento, o
critério de Jolliffe é ainda pior (um fator explica menos variância do que uma variável).
Existem maneiras mais complexas de determinar quantos fatores reter, mas não são
fáceis de fazer no SPSS. O melhor provavelmente é análise paralela (Horn, 1965).
Essencialmente, cada autovalor (que representa o tamanho do fator) é comparado
com um autovalor para o fator correspondente em muitos conjuntos de dados gerados
aleatoriamente que possuem as mesmas características que os dados que estão sendo
analisados. Ao fazê-lo, cada autovalor é comparado com um autovalor de um conjunto
de dados que não tem fatores subjacentes. Isso é um pouco como perguntar se o
nosso fator observado é maior do que um fator não existente. Os fatores que são
maiores do que suas homólogas "aleatórias" são mantidos. De análise paralela, o
traçado de scree e o critério de Kaiser, o critério de Kaiser é, em geral, o melhor e
melhor análise paralela (Zwick & Velicer, 1986). Se você quiser fazer análises paralelas,
a sintaxe SPSS está disponível (O'Connor, 2000) em
https://people.ok.ubc.ca/brioconn/nfactors/nfactors.html.

Existem dois tipos de rotação que podem ser feitas. A primeira é a rotação ortogonal, e
o lado esquerdo da Figura 17.5 representa esse método. No Capítulo 11, vimos que o
termo ortogonal significa "não relacionado", e neste contexto significa que rotei os
fatores, mantendo-os independentes ou não relacionados. Antes da rotação, todos os
fatores são independentes (ou seja, eles não se correlacionam de forma alguma) e a
rotação ortogonal garante que os fatores permaneçam relacionados à falta de cor. É
por isso que na Figura 17.5 os eixos são girados enquanto permanecem
perpendiculares.5 A outra forma de rotação é a rotação oblíqua. A derivação com
rotação oblíqua é que os fatores podem correlacionar-se (portanto, os eixos do
diagrama da mão direita da Figura 17.5 não permanecem perpendiculares). A escolha
da rotação depende de se existe uma boa razão teórica para supor que os fatores
devem ser relacionados ou independentes (mas veja meus comentários posteriores
sobre isso), e também como as variáveis se agrupam nos fatores antes da rotação. No
primeiro ponto, provavelmente é bastante raro que você mede um conjunto de
variáveis relacionadas e espera que suas dimensões subjacentes sejam completamente
independentes. Por exemplo, não esperamos que o alcoolismo seja completamente
independente da realização (afinal, a alta realização leva ao alto estresse, o que pode
levar ao armário de bebidas).

Portanto, por motivos teóricos, devemos escolher a rotação oblíqua. Na verdade,


alguns argumentam que a rotação oblíqua é a única escolha sensata para os dados que
ocorrem naturalmente. No segundo ponto, a Figura 17.5 demonstra como o
posicionamento dos clusters é importante para determinar o sucesso da rotação
(observe a posição dos círculos verdes). Se uma rotação ortogonal fosse realizada no
diagrama da direita, seria consideravelmente menos bem sucedido na maximização
das cargas do que a rotação oblíqua que é exibida. Uma abordagem é executar a
análise usando ambos os tipos de rotação. Pedhazur e Schmelkin (1991) sugerem que
se a rotação oblíqua demonstra uma correlação insignificante entre os fatores
extraídos, então é razoável usar a solução com rotação ortogonal. Se a rotação oblíqua
revelar uma estrutura de fatores correlacionados, então a solução com rotação
ortogonal deve ser descartada. Podemos verificar as relações entre fatores usando a
matriz de transformação de fatores, que é usada para converter as cargas de fatores
não geradas em roteadas. Os valores nesta matriz representam o ângulo através do
qual os eixos foram girados, ou o grau em que os fatores foram girados.

Escolhendo um método de rotação de fatores

O SPSS possui três métodos de rotação ortogonal (varimax, quartimax e equamax) e


dois métodos de rotação oblíqua (oblimin e promax direta). Esses métodos diferem em
como eles rodam os fatores, então a saída resultante depende do método que você
selecionar. A rotação da Quartimax tenta maximizar a propagação do fator de carga
para uma variável em todos os fatores. Portanto, a interpretação das variáveis torna-se
mais fácil. No entanto, isso muitas vezes resulta em muitas variáveis que carregam
altamente em um único fator. Varimax é o oposto em que tenta maximizar a dispersão
das cargas dentro dos fatores. Portanto, ele tenta carregar um número menor de
variáveis altamente em cada fator, resultando em clusters de fatores mais
interpretáveis. Equamax é um híbrido das outras duas abordagens e é relatado para se
comportar de forma bastante errática (ver Tabachnick e Fidell, 2012). Para uma
primeira análise, você provavelmente deve selecionar varimax porque é uma boa
abordagem geral que simplifica a interpretação de fatores.

O caso com rotações oblíquas é mais complexo porque a correlação entre fatores é
permitida. No caso do oblimin direto, o grau de correlação dos fatores é determinado
pelo valor de uma constante chamada delta. O valor padrão no SPSS é 0, e isso garante
que uma correlação alta entre fatores não é permitida (isto é conhecido como rotação
direta de quartimmino). Se você optar por definir delta para maior que 0 (até 0,8),
então você pode esperar fatores altamente correlacionados; Se você definir o delta
com menos de 0 (até -0,8), você pode esperar fatores menos correlacionados. A
configuração padrão de zero é sensível para a maioria das análises, e não recomendo
mudá-las, a menos que você saiba o que está fazendo (ver Pedhazur & Schmelkin,
1991, p.620). O Promax é um procedimento mais rápido projetado para conjuntos de
dados muito grandes.

Em teoria, a escolha exata de rotação dependerá em grande parte de se você acha ou


não que os fatores subjacentes devem estar relacionados. Se você espera que os
fatores sejam independentes, então você deve escolher uma das rotações ortogônicas
(eu recomendo varimax). Se, no entanto, existem razões teóricas para supor que seus
fatores possam se correlacionar, então o obliminar direto deve ser selecionado. Na
prática, existem motivos sólidos para acreditar que as rotações ortogônicas são um
absurdo completo para os dados naturalistas e, certamente, para qualquer informação
envolvendo seres humanos (você pode pensar em qualquer construção psicológica que
não esteja de alguma forma correlacionada com alguma outra construção
psicológica?). Por exemplo, alguns argumentam que rotações ortogônicas nunca
devem ser usadas.

Importância substancial das cargas

Uma vez encontrada uma estrutura de fatores, é importante decidir quais variáveis
compõem quais fatores. Anteriormente, eu disse que as cargas eram um indicador da
importância substancial de uma determinada variável para um determinado fator.
Portanto, faz sentido usar esses valores para colocar variáveis com fatores. É possível
avaliar a significância estatística de um carregamento (afinal, é simplesmente um
coeficiente de correlação ou coeficiente de regressão); No entanto, não é tão fácil
quanto parece (ver Stevens, 2002, pág. 393) porque o significado de um fator de carga
dependerá do tamanho da amostra. Stevens (2002) produziu uma tabela de valores
críticos contra os quais as cargas podem ser comparadas. Para resumir, ele recomenda
que, para um tamanho de amostra de 50, um carregamento de .722 pode ser
considerado significativo, para 100 o carregamento deve ser maior que .512, para 200
deve ser maior que .364, para 300 deve ser maior que .298, para 600 deve ser maior
que .21, e para 1000 deve ser maior que .162. Esses valores são baseados em um nível
alfa de .01 (duas colunas), o que permite o fato de que várias cargas precisarão ser
testadas (veja Stevens, 2002, para mais detalhes). Portanto, em amostras muito
grandes, pequenas cargas podem ser consideradas estatisticamente significativas. No
entanto, a importância de um carregamento dá pouca indicação da importância
substancial de uma variável para um fator. Podemos avaliar a importância ao quadrar
o carregamento para fornecer uma estimativa da quantidade de variância em um fator
representado por uma variável (como R2). A este respeito, Stevens (2002) recomenda
a interpretação das cargas fatoriais com um valor absoluto maior que 0,4 (o que
explica cerca de 16% da variância na variável). Alguns pesquisadores optam pelo
critério inferior de .3.

Exemplo de pesquisa

Um dos usos da análise fatorial é desenvolver questionários. Tenho notado que muitos
estudantes ficam muito estressados sobre SPSS. Portanto, queria projetar um
questionário para medir uma característica que eu chamava de "ansiedade SPSS". Eu
desenvolvi um questionário para medir vários aspectos da ansiedade dos alunos para
aprender SPSS, o SAQ (Figura 17.6). Eu gerei perguntas com base em entrevistas com
estudantes ansiosos e não ansiosos e encontrei 23 perguntas possíveis para incluir.
Cada pergunta foi uma declaração seguida de uma escala Likert de 5 pontos: "discorda
fortemente", "discorda", "não concorda nem discorda", "concorda" e "concorda
fortemente" (SD, D, N, A e SA, respectivamente). O questionário foi projetado para
medir quão ansioso um determinado indivíduo seria sobre aprender a usar SPSS. Além
disso, eu queria saber se a ansiedade sobre SPSS poderia ser dividida em formas
específicas de ansiedade. Em outras palavras, quais variáveis latentes contribuem para
a ansiedade sobre SPSS? Com pouca ajuda de alguns amigos conferencistas, coletei
2571 questionários completos (neste ponto, deve se tornar aparente que este exemplo
é fictício!). Carregue o arquivo de dados (SAQ.sav) no SPSS e veja as variáveis e suas
propriedades. A primeira coisa a observar é que cada questão (variável) é
representada por uma coluna diferente. Sabemos que em SPSS, os casos (ou os dados
das pessoas) são armazenados em linhas e as variáveis são armazenadas em colunas,
de modo que este layout é consistente com capítulos passados. A segunda coisa a
notar é que existem 23 variáveis identificadas como Question_01 a Question_23 e que
cada uma possui um rótulo que indica a pergunta. Ao rotular minhas variáveis, posso
ser muito claro sobre o que cada variável representa (este é o valor de dar a suas
variáveis títulos completos ao invés de apenas usar cabeçalhos de colunas restritivas).

Procedimento geral

A Figura 17.7 mostra o procedimento geral para a realização de análise fatorial ou PCA.
Primeiro, precisamos fazer um rastreio inicial dos dados, então, uma vez que iniciamos
a análise principal, precisamos considerar quantos fatores reter e a rotação a ser
utilizada, e se estiver usando a análise para analisar a estrutura dos fatores de um
questionário então gostaríamos de fazer uma análise de confiabilidade no final (ver
Seção 17.9).
Antes de você começar

Tamanho da amostra

Os coeficientes de correlação flutuam de amostra para amostra, muito mais em


pequenas amostras do que em grande. Portanto, a confiabilidade da análise fatorial
dependerá do tamanho da amostra. Muitas "regras práticas" existem para a proporção
de casos para variáveis; um comum é ter pelo menos 10-15 participantes por variável.
Embora eu tenha ouvido essa regra sobre muitas vezes, sua base empírica não é clara
(embora Nunnally, 1978, recomendou ter 10 vezes mais participantes que as
variáveis). Com base em dados reais, Arrindell e van der Ende (1985) concluíram que o
índice casos-para-variáveis fez pouca diferença na estabilidade das soluções fatoriais.
O que importa é o tamanho geral da amostra. Os parâmetros de teste tendem a ser
estáveis, independentemente da relação entre casos e variáveis (Kass & Tinsley, 1979),
razão pela qual Tabachnick e Fidell (2012) sugerem que "é reconfortante ter pelo
menos 300 casos" (p.613) e Comrey e Lee (1992) classe 300 como um bom tamanho
de amostra, 100 como pobres e 1000 como excelentes. No entanto, a imagem é um
pouco mais complicada do que isso. Em primeiro lugar, as cargas de fatores são
importantes: Guadagnoli e Velicer (1988) descobriram que, se um fator tiver quatro ou
mais carregamentos maiores que 0,6, ele é confiável, independentemente do tamanho
da amostra. Além disso, os fatores com 10 ou mais carregamentos maiores que .40 são
confiáveis se o tamanho da amostra for maior que 150. Finalmente, fatores com
poucas cargas baixas não devem ser interpretados a menos que o tamanho da amostra
seja 300 ou mais. Em segundo lugar, as comunalidades são importantes. MacCallum,
Widaman, Zhang e Hong (1999) mostraram que, à medida que as comunalidades se
tornam menores, a importância do tamanho da amostra aumenta. Com todas as
comunalidades acima de 0,6, amostras relativamente pequenas (menos de 100)
podem ser perfeitamente adequadas. Com as comunalidades na faixa de .5, as
amostras entre 100 e 200 podem ser suficientemente boas desde que existam
relativamente poucos fatores, cada um com apenas um pequeno número de variáveis
de indicadores. No pior cenário de comunalidades baixas (bem abaixo de .5) e um
maior número de fatores subjacentes recomendam amostras acima de 500. O que é
claro a partir deste trabalho é que uma amostra de 300 ou mais provavelmente
fornecerá uma solução de fator estável, mas que uma um sábio pesquisador irá medir
variáveis suficientes para medir adequadamente todos os fatores que teoricamente
eles esperariam encontrar. Existem medidas de adequação da amostragem, como a
medida Kaiser-Meyer-Olkin da adequação da amostragem (KMO) (Kaiser, 1970). O
KMO pode ser calculado para variáveis individuais e múltiplas e representa a
proporção da correlação quadrática entre variáveis para a correlação parcial
quadrática entre variáveis. A estatística KMO varia entre 0 e 1. Um valor de 0 indica
que a soma das correlações parciais é grande em relação à soma das correlações,
indicando a difusão no padrão de correlações (portanto, a análise dos fatores
provavelmente não será apropriada). Um valor próximo a 1 indica que os padrões de
correlações são relativamente compactos e, portanto, a análise fatorial deve
produzir fatores distintos e confiáveis. Kaiser (1974) recomenda aceitar valores
maiores que .5 como pouco aceitáveis (valores abaixo disso devem levá-lo a coletar
mais dados ou repensar quais variáveis incluir). Hutcheson e Sofroniou (1999)
fornecem orientações atraentes, especialmente se você gosta da letra M:

1. Maravilhoso: valores nos anos 90


2. Meritorial: valores nos anos 80
3. Middling: valores nos .70s
4. Medíocre: valores nos .60s
5. Miserável: valores nos .50s
6. Merda: valores abaixo de .50. (Na verdade, eles usaram a palavra "inaceitável",
mas eu não gosto do fato de que não começa com a letra 'M', então eu a
mudei.)

Correlações entre variáveis

Quando eu era graduação, meu professor de estatísticas sempre costumava dizer "se
você colocar o lixo, você tira o lixo". Esta afirmação aplica-se particularmente à análise
fatorial, pois o SPSS normalmente encontrará uma solução fatorial para um conjunto
de variáveis. No entanto, é improvável que a solução tenha algum significado real se as
variáveis analisadas não forem sensíveis. A primeira coisa a fazer ao realizar uma
análise fatorial ou PCA é olhar para as correlações entre variáveis. Existem
essencialmente dois problemas potenciais: (1) correlações que não são
suficientemente altas; e (2) correlações que são muito altas. Em ambos os casos, o
remédio é para remover variáveis da análise. As correlações entre variáveis podem ser
verificadas usando o procedimento correlato (ver Capítulo 7) para criar uma matriz de
correlação de todas as variáveis. Esta matriz também pode ser criada como parte da
análise fatorial. Examinaremos cada problema por sua vez. Se nossas perguntas de
teste medem a mesma dimensão subjacente (ou dimensões), esperamos que elas se
correlacionem entre si (porque estão medindo a mesma coisa). Mesmo que as
perguntas medem diferentes aspectos das mesmas coisas (por exemplo, podemos
medir a ansiedade geral em termos de subcomponentes, como preocupação,
pensamentos intrusivos e excitação fisiológica), ainda deve haver altas correlações
entre as variáveis relacionadas a essas sub-características . Podemos testar este
problema primeiro através da verificação visual da matriz de correlação e busca
correlações abaixo de cerca de 0,3 (você poderia usar o significado das correlações,
mas, dado os grandes tamanhos de amostra normalmente utilizados com a análise
fatorial, esta abordagem não é útil porque mesmo correlações muito pequenas serão
significativas em grandes amostras). Se quaisquer variáveis tiverem muitas correlações
abaixo, então considere excluí-las. Deve ficar imediatamente claro que esta
abordagem é muito subjetiva: usei termos difusos como "cerca de .3" e "muitos", mas
tenho que porque todos os conjuntos de dados são diferentes. Analisar dados
realmente é uma habilidade, e há mais do que seguir um livro de receitas! Para um
teste objetivo de se as correlações (em geral) são muito pequenas, podemos testar um
cenário muito extremo. Se as variáveis em nossa matriz de correlação não se
correlacionassem, nossa matriz de correlação seria uma matriz de identidade (isto é,
os componentes fora da diagonal seriam zero); então, se a matriz de correlação de
população se assemelha a uma matriz de identidade, então significa que cada variável
se correlaciona muito mal com todas as outras variáveis (ou seja, todos os coeficientes
de correlação são próximos de zero). O teste de Bartlett nos diz se nossa matriz de
correlação é significativamente diferente de uma matriz de identidade. Portanto, se é
significativo, significa que as correlações entre variáveis são (em geral)
significativamente diferentes de zero. O problema é que, porque o significado depende
do tamanho da amostra (ver Seção 2.6.1.10) e na análise fatorial, os tamanhos de
amostra são muito grandes, o teste de Bartlett quase sempre será significativo: mesmo
quando as correlações entre variáveis são muito pequenas. Como tal, não é um teste
útil (embora no caso improvável de que não seja significativo, você certamente tem
um grande problema). O problema oposto é quando as variáveis se correlacionam
demais. Embora a multicolinearidade leve não seja um problema para a análise
fatorial, é importante evitar a multicolinealidade extrema (ou seja, variáveis altamente
correlacionadas) e a singularidade (variáveis perfeitamente correlacionadas). Tal como
acontece com a regressão, a multicolinearidade causa problemas na análise fatorial
porque torna-se impossível determinar a contribuição única para um fator das
variáveis altamente correlacionadas.
Multicollinearidade não causa um problema para PCA.

A multicolinealidade pode ser detectada observando o determinante da matriz R,


denotado R (ver Jane Superbrain, caixa 17.3). Uma simples heurística é que o
determinante da matriz R deve ser maior que 0,00001.

Para tentar evitar ou corrigir a multicolinearidade, você poderia examinar a matriz de


correlação para variáveis que se correlacionam muito (r> .8) e considerar a eliminação
de uma das variáveis (ou mais dependendo da extensão do problema) antes de
prosseguir. O problema com uma heurística como esta é que o efeito de duas variáveis
correlacionadas com r = .9 pode ser menor do que o efeito de, digamos, três variáveis
que se correlacionam em r = .6. Em outras palavras, a eliminação de variáveis tão
altamente correlativas pode não estar na causa da multicolinearidade (Rockwell,
1975). Pode levar uma tentativa e erro para determinar quais variáveis criam o
problema.

A distribuição de dados

Além de buscar inter-relações, você pode garantir que as variáveis tenham


distribuições aproximadamente normais e sejam medidas em um nível de intervalo
(que as escalas de Likert são, talvez, erroneamente, assumidas como). A suposição de
normalidade é importante se você deseja generalizar os resultados de sua análise além
da amostra coletada ou fazer testes de significância, mas, de outra forma, não é. Você
pode fazer análise fatorial em dados não contínuos; Por exemplo, se você tivesse
variáveis dicotômicas, é possível (usando sintaxe) fazer a análise fatorial direta da
matriz de correlação, mas você deve construir a matriz de correlação a partir dos
coeficientes de correlação tetracórficos (http://www.john-uebersax.com/ stat /
tetra.htm). O único problema é calcular as correlações (mas veja o site para obter
opções de software).

Executando a análise

Acesse a caixa de diálogo principal (Figura 17.9) selecionando


. Simplesmente selecione as variáveis que você deseja
incluir na análise (lembre-se de excluir quaisquer variáveis que foram identificadas
como problemáticas durante a triagem de dados) e transferi-las para a caixa
denominada Variáveis, clicando em .

Existem várias opções disponíveis, a primeira das quais pode ser acessada clicando
para acessar a caixa de diálogo na Figura 17.10. A opção descritiva
Univariada fornece meios e desvios padrão para cada variável. A maioria das outras
opções relaciona-se com a matriz de correlação das variáveis (a matriz R descrita
anteriormente). A opção Coeficientes produz a matriz R e a seleção da opção Níveis de
significância incluirá o valor de significância de cada correlação na matriz R. Você
também pode pedir o Determinante desta matriz, que é útil para testes de
multicolinearidade ou singularidade (ver Seção 17.5.2.2).

O teste de esfericidade de KMO e Bartlett produz a medida Kaiser-Meyer-Olkin (ver


Seção 17.5.2.1) da adequação da amostragem e o teste de Bartlett (ver Seção
17.5.2.2). Já vimos os vários critérios de adequação, mas com uma amostra de 2571
não devemos nos preocupar.

A opção Reproduzir produz uma matriz de correlação baseada no modelo (em vez dos
dados reais). As diferenças entre a matriz baseada no modelo e a matriz com base nos
dados observados indicam os resíduos do modelo. O SPSS produz esses resíduos na
tabela inferior da matriz reproduzida, e queremos que relativamente poucos desses
valores sejam maiores que 0,05. Por sorte, para nos salvar a escanear esta matriz, o
SPSS produz um resumo de quantos resíduos estão acima de .05. A opção Reproduzido
deve ser selecionada para obter esse resumo. A opção Anti-imagem produz uma
matriz anti-imagem de covariâncias e correlações. Essas matrizes contêm medidas de
adequação da amostragem para cada variável ao longo da diagonal e os negativos das
correlações / covariâncias parciais nas off-diagonals. Os elementos diagonais, como a
medida KMO, devem ser todos maiores que 0,5 por um mínimo, se a amostra for
adequada para um par de variáveis. Se qualquer par de variáveis tiver um valor inferior
a este, considere deixar um deles a partir da análise. Os elementos fora da diagonal
devem ser muito pequenos (perto de zero) em um bom modelo. Quando você
terminar com esta caixa de diálogo, clique em para retornar à caixa de diálogo
principal.

JANE SUPERBRAIN 17.3


Qual é o determinante?

O determinante de uma matriz é uma ferramenta de diagnóstico importante na análise


fatorial, mas a questão do que é não é fácil de responder porque tem uma definição
matemática e não sou matemático. No entanto, podemos ignorar as matemáticas e
pensar sobre a determinante conceitualmente. A maneira como eu penso sobre o
determinante é descrever a "área" dos dados. Em Jane Superbrain Box 8.3, vimos os
dois diagramas na Figura 17.8. Na época, usei estes para descrever autovetores e
autovalores (que descrevem a forma dos dados). O determinante está relacionado aos
autovalores e vetores próprios, mas em vez de descrever a altura e a largura dos dados
que descreve a área geral. Assim, no diagrama esquerdo, o determinante desses dados
representaria a área dentro da elipse vermelha tracejada. Essas variáveis têm baixa
correlação para que o determinante (área) seja grande; O maior valor que pode ser é
1. No diagrama direito, as variáveis são perfeitamente correlacionadas ou singulares, e
a elipse (linha tracejada vermelha) foi esmagada basicamente em linha reta. Em outras
palavras, os lados opostos da elipse realmente se encontraram e não há distância
entre eles. Dito de outra forma, a área, ou determinante, é zero. Portanto, o
determinante nos diz se a matriz de correlação é singular (determinante é 0), ou se
todas as variáveis estão completamente não relacionadas (o determinante é 1) ou em
algum lugar intermediário.
Extração de fator no SPSS

Para acessar a caixa de diálogo Extração (Figura 17.11), clique na caixa


de diálogo principal. Existem várias maneiras de realizar uma análise fatorial (ver Seção
17.4.1). Para nossos propósitos, usaremos o factoring do eixo principal
( ). Na caixa Analisar, existem duas opções: analisar a matriz de
correlação ou analisar a matriz Covariância (SPSS Dica 17.1). A caixa de exibição tem
duas opções dentro dela: para exibir a solução do fator Unrotated e um gráfico do
Scree. A trama de scree foi descrita na Seção 17.4.5 e é uma maneira útil de
estabelecer quantos fatores devem ser mantidos em uma análise. A solução do fator é
útil na avaliação da melhoria da interpretação devido à rotação. Se a solução girada for
pouco melhor do que a solução não acelerada, é possível que um método de rotação
inadequado (ou menos ótimo) tenha sido usado.

A caixa Extrair fornece opções relativas à retenção de fatores. Você escolheu


selecionar fatores com autovalores superiores a um valor especificado pelo usuário ou
manter um número fixo de fatores. Para o valor Eigenvalores superior à opção, o
padrão é a recomendação do Kaiser de valores próprios acima de 1, mas você pode
mudar isso para a recomendação da Jolliffe de 0,7 ou qualquer outro valor que você
deseja. Provavelmente é melhor executar uma análise primária com os Eigenvalores
maiores que 1 opção selecionada, selecione um gráfico de sucesso e compare os
resultados. Se olharmos para o traçado do scree e os autovalores superiores a 1, você
mantém o mesmo número de fatores, então continue com a análise e seja feliz. Se os
dois critérios dão resultados diferentes, examine as comunalidades e decida por si
mesmo qual dos dois critérios para acreditar. Se você decidir usar o argumento scree,
talvez seja necessário refazer a análise especificando o número de fatores a serem
extraídos. O número de fatores a serem extraídos pode ser especificado selecionando
o número fixo de fatores e, em seguida, digitando o número apropriado no espaço
fornecido (por exemplo, 4).

Rotação

Já vimos que a interpretabilidade dos fatores pode ser melhorada através da rotação
(Seção 17.4.6). Clique em para acessar a caixa de diálogo na Figura 17.12. Eu discuti as
várias opções de rotação na Seção 17.4.6.1, mas, para resumir, se houver motivos
teóricos para pensar que os fatores são independentes (não relacionados), você deve
escolher uma das rotações ortogônicas (eu recomendo varimax), mas se A teoria
sugere que seus fatores possam se correlacionar, então uma das rotações oblíquas
(oblimin ou promax direto) deve ser selecionada. Neste exemplo, selecionei varimax. A
caixa de diálogo também possui opções para exibir a solução Rotated e um gráfico de
carregamento. A solução girada é exibida por padrão e é essencial para interpretar a
análise rotativa final. O gráfico de carregamento fornecerá uma exibição gráfica de
cada variável plotada contra os fatores extraídos até um máximo de três fatores
(infelizmente, o SPSS não pode produzir gráficos de quatro ou cinco dimensões). Este
gráfico é basicamente semelhante à Figura 17.3 e usa o fator de carga de cada variável
para cada fator. Com dois fatores, essas parcelas são bastante interpretáveis e você
deve esperar ver um grupo de variáveis agrupadas próximas ao eixo X e um grupo
diferente de variáveis agrupadas em torno do eixo Y. Se todas as variáveis estiverem
agrupadas entre os eixos, a rotação tem sido relativamente infrutífera ao maximizar o
carregamento de uma variável em um único fator. Com três fatores, essas parcelas
prejudicarão o sistema visual mais dedicado, então, a menos que você tenha apenas
dois fatores, provavelmente os evitaria.
Uma opção final é definir as Iterações Máximas para Convergência (veja SPSS Dica
19.1), que especifica o número de vezes que o computador procurará uma solução
ideal. Na maioria das circunstâncias, o padrão de 25 é adequado; no entanto, se você
receber uma mensagem de erro sobre convergência, então, adicione esse valor.

Pontuação

A caixa de diálogo Factor Scores (Figura 17.13) pode ser acessada clicando na caixa de
diálogo principal. Esta opção permite salvar pontuações de fatores (ver Seção 17.3.3)
para cada caso no editor de dados. SPSS cria uma nova coluna para cada fator extraído
e, em seguida, coloca a pontuação do fator para cada caso dentro dessa coluna. Essas
pontuações podem então ser usadas para uma análise mais aprofundada, ou
simplesmente para identificar grupos de participantes que obtêm altos resultados em
fatores específicos. Existem três métodos para obter esses escores, todos os quais
foram descritos na Seção 17.3.3. Se você quiser garantir que os escores dos fatores
não estejam correlacionados, selecione o método Anderson-Rubin; se as correlações
entre os escores dos fatores forem aceitáveis, escolha o método de Regressão. Como
opção final, você pode solicitar ao SPSS que produza a matriz do coeficiente de
pontuação do fator. Esta matriz é usada para calcular os escores dos fatores, mas
realisticamente, não precisamos vê-lo.

Opções

A caixa de diálogo Opções pode ser obtida clicando na caixa de diálogo principal
(Figura 17.14). Os dados em falta são um problema para a análise de fatores, como a
maioria dos outros procedimentos, e o SPSS oferece uma escolha de excluir casos ou
estimar um valor para um caso. Tabachnick e Fidell (2012) têm um excelente capítulo
sobre rastreio de dados (veja também o Capítulo 5, pouco menos excelente, deste
livro). Com base em seus conselhos, você deve considerar a distribuição de dados
ausentes. Se os dados em falta forem distribuídos de forma não numerada ou o
tamanho da amostra após a exclusão for muito pequeno, é necessário estimar. SPSS
usa a média como uma estimativa (Substitua com a média). Estes procedimentos
diminuem o desvio padrão das variáveis e, portanto, podem levar a resultados
significativos que, de outra forma, não seriam significativos. Portanto, se os dados em
falta forem aleatórios, você pode considerar excluir os casos. O SPSS permite que você
exclua os casos em lista, caso em que qualquer participante com dados faltantes para
qualquer variável é excluído, ou Excluir casos em pares, caso em que os dados de um
participante são excluídos apenas dos cálculos para os quais um dado está faltando
(ver SPSS Dica 5.1). Se você exclui os casos, em vez disso, suas estimativas podem ir
por todo o lugar, portanto, provavelmente é mais seguro optar por excluir os casos em
lista, a menos que isso resulte em uma perda maciça de dados. As duas últimas opções
referem-se a como os coeficientes são exibidos. Por padrão, o SPSS listará as variáveis
na ordem em que são inseridas no editor de dados. No entanto, ao interpretar fatores,
é útil listar variáveis por tamanho. Ao selecionar Ordenar por tamanho, o SPSS irá
ordenar as variáveis pelo seu fator de carregamento. Na verdade, ele faz essa
classificação com bastante inteligência para que todas as variáveis que carregam
altamente no mesmo fator são exibidas em conjunto. A segunda opção é suprimir
valores absolutos inferiores a um valor especificado (por padrão, 0,1). Esta opção
garante que os carregamentos de fator dentro de ± 0,1 não sejam exibidos na saída.
Mais uma vez, esta opção é útil para interpretação. O valor padrão provavelmente é
sensível, mas em sua primeira análise, eu recomendo mudá-lo para .3 ou para um
valor que reflita o valor esperado de um fator de fator significativo, dado o tamanho da
amostra (ver Seção 17.4.6.2). Isso tornará a interpretação mais simples. Sabemos que
um carregamento de .4 é substancial, mas, portanto, não descartamos o bebê com a
água do banho, estabelecendo o valor para 0.3 é sensível: veremos não só o
substancial carregamentos, mas aqueles próximos ao corte (por exemplo, um
carregamento de .39). Para este exemplo, defina o valor em .3.
Interpretando o resultado do SPSS

Selecione as mesmas opções que eu tenho nos diagramas de tela e execute uma
análise de fator com rotação ortogonal.

Para economizar espaço, defino as opções SPSS padrão, de modo que cada variável
seja referida apenas pelo seu rótulo no editor de dados (por exemplo, Question_12).
Na saída que você obtém, você deve descobrir que o SPSS usa o rótulo do valor (a
própria pergunta) em todos os resultados. Ao usar a saída, consulte a Figura 17.6 para
lembrá-lo de cada pergunta. Quando você analisa os seus próprios dados, pode ser
desafortunado o suficiente para ver uma mensagem de erro sobre uma "matriz
definida não positiva" (veja SPSS Dica 17.2). Uma "matriz definida não positiva" parece
um pouco como uma coleção de números deprimidos que não têm certeza sobre suas
vidas. De certa forma, é.

Análise preliminar

O primeiro corpo de produção diz respeito à triagem de dados, testes de suposição e


adequação da amostragem. Você encontrará várias mesas grandes (ou matrizes) que
nos dizem coisas interessantes sobre nossos dados. Se você selecionou a opção de
descrições univariadas na Figura 17.10, a primeira tabela conterá estatísticas
descritivas para cada variável (média, desvio padrão e número de casos). Esta tabela
não está incluída aqui, mas você deve ter experiência suficiente para poder interpretá-
la. A tabela também inclui a quantidade de casos em falta; este resumo é uma maneira
útil de determinar a extensão dos dados perdidos.

A saída 17.1 mostra a matriz R (isto é, a matriz de correlação) 6 produzida usando as


opções de Coeficientes e níveis de significância na Figura 17.10. A metade superior
desta tabela contém o coeficiente de correlação de Pearson entre todos os pares de
perguntas, enquanto a metade inferior contém o significado de um desses atributos.
Podemos usar essa matriz de correlação para verificar o padrão de relacionamentos.
Primeiro, verifique a matriz para correlações maiores que .3 e procure variáveis que
tenham apenas um pequeno número de correlações maiores que esse valor. Em
seguida, analise os próprios coeficientes de correlação e procure mais do que .9. Se
algum deles for encontrado, você deve estar ciente de que um problema poderia surgir
devido à multicolinearidade nos dados.

Você também pode verificar o determinante da matriz de correlação e, se necessário,


eliminar variáveis que você acha que estão causando o problema. O determinante está
listado na parte inferior da matriz (piscar e você sentirá falta). Para esses dados, seu
valor é 0,001, que é maior do que o valor necessário de 0,00001 (ver Seção 17.6) .7
Para resumir, todas as questões no SAQ se correlacionam razoavelmente bem com
todas as outras e nenhum dos coeficientes de correlação é excessivamente grande;
portanto, não eliminaremos nenhuma questão nesta fase.

 Se você selecionou a opção Inversa na Figura 17.10, você encontrará o inverso da
matriz de correlação (R-1) em sua saída (rotulada como Inversa da Matriz de
Correlação). Esta matriz é usada em vários cálculos (incluindo os escores dos fatores -
veja a Seção 17.3.3.1), mas, com toda a honestidade, é útil somente se desejar alguma
informação sobre os cálculos que ocorrem em uma análise fatorial. A maioria de nós
tem coisas mais interessantes para fazer, então ignore.

Se você selecionou o teste KMO e Bartlett de esfericidade e as opções Anti-imagem na


Figura 17.10, sua saída conterá a medida Kaiser-Meyer-Olkin da adequação da
amostragem e o teste de esfericidade de Bartlett (Saída 17.2) e a correlação anti-
imagem e Matrizes de covariância (uma versão editada está na Saída 17.3). As matrizes
de correlação e covariância anti-imagem fornecem informações semelhantes (lembre-
se da relação entre covariância e correlação) e, portanto, apenas a matriz de
correlação anti-imagem precisa ser estudada em detalhes porque é a mais informativa.

Para a estatística KMO, o valor é .93, que está bem acima do critério mínimo de .5 e cai
no intervalo de "maravilhoso" (ver Seção 17.5.2.1), por isso devemos ter certeza de
que o tamanho da amostra é adequado para o fator análise. Eu mencionei
anteriormente que o KMO pode ser calculado para variáveis múltiplas e individuais. Os
valores de KMO para variáveis individuais são produzidos na diagonal da matriz de
correlação anti-imagem (eu destaquei essas células na saída 17.3). Além de verificar a
estatística geral do KMO, devemos examinar os elementos diagonais da matriz de
correlação anti-imagem: os valores devem estar acima do mínimo de .5 (e de
preferência maior). Para esses dados, todos os valores estão bem acima .5, o que é
uma boa notícia. Se você encontrar quaisquer variáveis com valores abaixo de 0,5,
então você deve considerar excluí-las da análise (ou executar a análise com e sem essa
variável e anotar a diferença). A remoção de uma variável afeta as estatísticas do KMO,
portanto, se você remover uma variável, certifique-se de reexaminar a nova matriz de
correlação anti-imagem. Quanto ao resto da matriz de correlação anti-imagem, os
elementos fora da diagonal representam as correlações parciais entre as variáveis.
Para uma boa análise fatorial, queremos que essas correlações sejam muito pequenas
(quanto menor, melhor). Então, como uma verificação final, você pode olhar para ver
que os elementos fora da diagonal são pequenos (eles devem ser para esses dados).

A medida de Bartlett (Output 17.2) testa a hipótese nula de que a matriz de correlação
original é uma matriz de identidade. Queremos que este teste seja significante (ver
Seção 17.5.2.2). Como mencionei anteriormente, dado os grandes tamanhos de
amostra geralmente utilizados na análise fatorial, este teste quase certamente será
significativo e é (p <0,001). Um teste não significativo certamente indicaria um enorme
problema, mas esse valor significativo realmente nos diz que não temos um problema
enorme, o que é bom saber, suponho.
Extração de fator

A primeira parte do processo de extração de fator é determinar os componentes


lineares dentro do conjunto de dados (os vetores próprios) ao calcular os autovalores
da matriz R (ver Seção 17.4.4). Sabemos que há tantos componentes (autovetores) na
matriz R, pois existem variáveis, mas a maioria não terá importância. Para determinar
a importância de um vetor particular, observamos a magnitude do autovalor
associado. Podemos então aplicar critérios para determinar quais fatores reter e qual
descartar. Por padrão, o SPSS usa o critério de Kaiser de fatores de retenção com
autovalores superiores a 1 (ver Figura 17.11).

A saída 17.4 lista os autovalores associados a cada fator antes da extração, após a
extração e após a rotação. Antes da extração, o SPSS identificou 23 fatores dentro do
conjunto de dados (sabemos que deve haver quantos vetores próprios como variáveis
e, portanto, haverá tantos fatores como variáveis - veja a Seção 17.4.4). Os autovalores
associados a cada fator representam a variância explicada por esse fator particular; O
SPSS também exibe o autovalor em termos da porcentagem de variância explicada
(portanto, o fator 1 explica 31,696% da variância total). Os primeiros fatores explicam
quantidades de variância relativamente grandes (especialmente o fator 1), enquanto
os fatores subseqüentes explicam apenas pequenas quantidades de variância. O SPSS
extrai todos os fatores com autovalores superiores a 1, o que nos deixa com quatro
fatores. Os autovalores associados a esses fatores são novamente exibidos (e a
porcentagem de variância explicada) nas colunas denominadas Soma de Extração de
Cargas Squared. Na parte final da tabela (rotada de Soma de rotação de cargas
quadradas), os autovalores dos fatores após a rotação são exibidos. A rotação tem o
efeito de otimizar a estrutura do fator, e uma conseqüência para esses dados é que a
importância relativa dos quatro fatores é igualada um pouco. Antes da rotação, o fator
1 representou consideravelmente mais variância do que os três restantes (29,32%
comparado a 4,90%, 3,54% e 2,71%), mas após a rotação, representa apenas 13,19%
da variância (em comparação com 12,42%, 8,64% e 6,24 %, respectivamente).
A saída 17.5 (esquerda) mostra a tabela de comunalidades antes e depois da extração.
Lembre-se de que a comunidade é a proporção de variância comum dentro de uma
variável (ver Seção 17.4.1). A análise dos fatores começa por estimar a variância que é
comum; portanto, antes da extração, as comunalidadessão uma espécie de melhor
palpite. Uma vez que os fatores foram extraídos, temos uma melhor idéia de quanto
variação é, na realidade, comum. As comunalidades na coluna denominada Extração
refletem essa variância comum. Assim, por exemplo, podemos dizer que 37,3% da
variância associada à questão 1 é comum, ou compartilhada, variância. Outra maneira
de olhar para essas comunalidades é em termos da proporção de variância explicada
pelos fatores subjacentes. Lembre-se que, após a extração, descartamos alguns fatores
(neste caso, mantivemos apenas quatro), então as comunalidades após a extração
representam a quantidade de variância em cada variável que pode ser explicada pelos
fatores retidos.
A saída 17.5 (direita) também mostra a matriz do fator antes da rotação. Esta matriz
contém as cargas de cada variável em cada fator. Por padrão, o SPSS exibe todas as
cargas; no entanto, pedimos que todas as cargas inferiores a .3 sejam suprimidas na
saída (veja a Figura 17.14) e, portanto, há espaços em branco para muitas das cargas.
Esta matriz não é particularmente importante para a interpretação, mas é interessante
notar que, antes da rotação, as demais variáveis são altamente responsáveis pelo
primeiro fator (é por isso que esse fator explica a maior parte da variância na saída
17.4).

A análise de fator é uma ferramenta exploratória e, portanto, deve ser usada para
orientar o pesquisador para tomar várias decisões: você não deve deixar o computador
para fazê-los. Uma decisão importante é o número de fatores a serem extraídos (Seção
17.4.5). Pelo critério de Kaiser, devemos extrair quatro fatores (o que o SPSS fez); no
entanto, esse critério é preciso quando há menos de 30 variáveis e comunalidades
após a extração são maiores que 0,7 ou quando o tamanho da amostra excede 250 e a
média comum é maior que 0,6. Não há comunalidades superiores a .7 (Saída 17.5), e a
comunidade comum pode ser encontrada, adicionando-as e dividindo-se pelo número
de comunalidades (9.31 / 23 = .405). Então, ambos os critérios sugerem que a regra de
Kaiser pode ser inadequada para esses dados. Poderíamos usar o critério de Jolliffe
(reter fatores com autovalores superiores a .7), mas há pouco para recomendar este
critério sobre o Kaiser e acabaríamos com 10 fatores (ver Saída 17.4). Finalmente,
poderíamos usar a trama de scree, que pedimos ao SPSS para produzir usando a opção
na Figura 17.11. Esta curva é difícil de interpretar porque existem pontos de inflexão
em ambos os fatores 3 e 5 (saída 17.6). Portanto, provavelmente podemos justificar a
retenção de dois ou quatro fatores.
Então, quantos fatores devemos extrair? Precisamos considerar que as recomendações
para o critério de Kaiser são para amostras muito menores do que nós. Portanto, dada
a nossa enorme amostra, e dado que há alguma consistência entre o critério de Kaiser
e o enredo de scree, é razoável extrair quatro fatores; no entanto, você gostaria de
executar a análise especificando que SPSS extraia apenas dois fatores (veja a Figura
17.11) e compare os resultados.

A saída 17.7 mostra uma versão editada da matriz de correlação reproduzida que foi
solicitada usando a opção na Figura 17.10. A metade superior desta matriz (rotulada
Correlações Reproduzidas) contém os coeficientes de correlação entre todas as
questões com base no modelo do fator. A diagonal disto
A matriz contém as comunalidades após a extração para cada variável (você pode
verificar os valores contra Saída 17.5).
As correlações na matriz reproduzida diferem daquelas na matriz R porque derivam do
modelo em vez dos dados observados. Se o modelo fosse um ajuste perfeito dos
dados, esperamos que os coeficientes de correlação reproduzidos sejam os mesmos
que os coeficientes de correlação originais. Portanto, para avaliar o ajuste do modelo,
podemos observar as diferenças entre as correlações observadas e as correlações com
base no modelo. Por exemplo, se tomarmos a correlação entre as questões 1 e 2, a
correlação com base nos dados observados é -099 (retirada da Saída 17.1). o
A correlação baseada no modelo é -121, que é ligeiramente maior. Podemos calcular a
diferença da seguinte forma:

Você deve notar que essa diferença é o valor cotado na metade inferior da matriz
reproduzida (rotulada como Residual) para as questões 1 e 2 (realçado em azul).
Portanto, a metade inferior da matriz reproduzida contém as diferenças entre os
coeficientes de correlação observados e os previstos pelo modelo. Para um bom
modelo, esses valores serão pequenos. Na verdade, queremos que a maioria dos
valores seja inferior a .05. Em vez de analisar esta matriz enorme, o SPSS fornece um
resumo de nota de rodapé, que indica quantos resíduos têm um valor absoluto maior
do que 0,05. Para esses dados, há apenas 12 resíduos (4%) 8 que são maiores que 0,05.
Não há regras rígidas sobre o que a proporção de resíduos deve estar abaixo de 0,05;
no entanto, se mais de 50% forem superiores a 0,05, você provavelmente tem motivos
para se preocupar. Para esses dados, temos cerca de 4%, o que certamente não é de
se preocupar. CRAMMING SAM'S TIPS Extração de fator Para decidir quantos fatores
extrair, veja a tabela rotulada de Comunicações e a coluna denominada Extração. Se
esses valores são todos .7 ou acima e você tem menos de 30 variáveis, então o SPSS
padrão (critério de Kaiser) para extrair fatores está bem. Da mesma forma, se seu
tamanho de amostra exceder 250 e a média das comunalidadesé de 0,6 ou maior,
então a opção padrão está bem. Alternativamente, com 200 ou mais participantes, o
traçado de scree pode ser usado. Verifique a parte inferior da tabela rotulada
Correlações Reproduzidas para a porcentagem de "resíduos não redundantes com
valores absolutos superiores a 0,05". Esta percentagem deve ser inferior a 50% e
quanto menor for, melhor.

Rotação de fator

A primeira análise que eu pedi para você executar foi usar uma rotação ortogonal. No
entanto, eu também pedi a você que voltasse a executar a análise usando rotação
oblíqua. Nesta seção, os resultados de ambas as análises serão relatados de modo a
destacar as diferenças entre as saídas. Esta comparação também será uma maneira
útil de mostrar as circunstâncias em que um tipo de rotação pode ser preferível a
outro.
Rotação ortogonal (Varimax)

A saída 17.8 mostra a matriz do fator girado (denominada matriz de componente


girada em PCA), que é uma matriz de carga de fatores para cada variável em cada
fator. Esta matriz contém a mesma informação que a matriz do fator na saída 17.5,
exceto que ela é calculada após a rotação. Há várias coisas a considerar sobre o
formato desta matriz. Primeiro, os carregamentos de fator inferiores a .3 não foram
exibidos porque pedimos que essas cargas sejam suprimidas usando a opção na Figura
17.14.

Em segundo lugar, as variáveis estão listadas na ordem do tamanho de suas cargas


fatoriais porque pedimos que a saída seja classificada por tamanho usando a opção na
Figura 17.14. Se esta opção não foi selecionada, as variáveis estarão listadas na ordem
em que elas aparecerão no editor de dados. Finalmente, para todas as outras partes da
saída, eu suprimi as etiquetas de variáveis (para economizar espaço), mas para essa
saída usei os rótulos de variáveis para auxiliar a interpretação.

Compare esta matriz com a solução não-roteada (Saída 17.5). Antes da rotação, a
maioria das variáveis carregadas altamente no primeiro fator e os fatores restantes
não conseguiram realmente um look-in. No entanto, a rotação da estrutura dos fatores
clarificou consideravelmente as coisas: há quatro fatores e a maioria das variáveis
carrega muito altamente em apenas um fator.9 Nos casos em que uma variável
carrega altamente em mais de um fator, o carregamento é tipicamente maior por um
fator do que outro. Por exemplo, "SPSS sempre falha quando eu tento usá-lo" em
ambos os fatos 1 e 2, mas o carregamento do fator 2 (.612) é maior do que para o
fator 1 (.366), então faz sentido pensar Isso faz parte do fator 2 mais do que o fator 1.
Lembre-se de que cada variável tem um carregamento em todos os fatores, apenas
aparece como se não estivessem na Saída 17.8 porque pedimos que não fossem
impressas se fossem menores do que .3.

O próximo passo é analisar o conteúdo das questões que se carregam altamente no


mesmo fator para tentar identificar temas comuns. Se os fatores matemáticos
representam alguma construção do mundo real, os temas comuns entre as questões
de alta carga podem nos ajudar a identificar o que a construção pode ser. As questões
que se carregam altamente no fator 1 parecem se relacionar com diferentes aspectos
das estatísticas; portanto, podemos rotular esse fator de medo das estatísticas. As
perguntas que carregam altamente no fator 2 parecem estar relacionadas ao uso de
computadores ou SPSS. Portanto, podemos rotular esse fator de medo dos
computadores. As três questões que carregam muito no fator 3 parecem relacionar-se
com a matemática; portanto, podemos rotular esse fator de medo da matemática.
Finalmente, as perguntas que carregam altamente no fator 4 contêm algum
componente da avaliação social de amigos; portanto, podemos rotular esse fator de
avaliação por pares. Esta análise parece revelar que o questionário é composto por
quatro subescalas: medo de estatísticas, medo de computadores, medo de
matemática e medo de avaliação negativa de pares. Existem duas possibilidades aqui.
O primeiro é que o SAQ não conseguiu medir o que estabeleceu (nomeadamente, a
ansiedade SPSS), mas mede algumas construções relacionadas. O segundo é que essas
quatro construções são subcomponentes da ansiedade SPSS; No entanto, a análise
fatorial não indica qual dessas possibilidades é verdadeira.

Rotação oblíqua

Quando uma rotação oblíqua é conduzida, a matriz do fator é dividida em duas


matrizes: a matriz do padrão e a matriz da estrutura (ver Jane Superbrain, caixa 17.1).
Para rotação ortogonal, essas matrizes são as mesmas. A matriz de padrões contém as
cargas de fator e é comparável à matriz de fatores que interpretamos para a rotação
ortogonal. A matriz da estrutura leva em consideração a relação entre os fatores (na
verdade, é um produto da matriz do padrão e a matriz que contém os coeficientes de
correlação entre os fatores). A maioria dos pesquisadores interpreta a matriz do
padrão, porque geralmente é mais simples; no entanto, existem situações em que os
valores na matriz de padrões são suprimidos devido a relações entre os fatores.
Portanto, a matriz de estrutura é uma verificação dupla útil e Graham et al. (2003)
recomendam relatórios tanto (com alguns exemplos úteis de por que isso pode ser
importante).

Para a matriz de padrões para esses dados (Saída 17.9), os mesmos quatro fatores
parecem ter surgido. O fator 1 parece representar o medo das estatísticas, o fator 2
representa o medo da avaliação dos pares, o fator 3 representa o medo dos
computadores e o fator 4 representa o medo da matemática. A matriz de estrutura
(Saída 17.10) difere em que a variância compartilhada não é ignorada. A imagem se
torna mais complicada porque, com exceção do fator 2, várias variáveis são altamente
carregadas em mais de um fator. Isso ocorreu devido à relação entre os fatores 1 e 3 e
entre os fatores 3 e 4. Este exemplo deve destacar por que a matriz do padrão é
preferível por razões interpretativas: contém informações sobre a contribuição única
de uma variável para um fator.

A parte final da saída é uma matriz de correlação entre os fatores (Saída 17.11). Esta
matriz contém os coeficientes de correlação entre os fatores. Conforme previsto na
matriz da estrutura, o fator 2 tem relações bastante pequenas com os outros fatores,
mas todos os outros fatores têm correlações bastante grandes. O fato de que essas
correlações existem nos diz que as construções medidas podem estar inter-
relacionadas. Se as construções fossem independentes, esperamos que a rotação
oblíqua ofereça uma solução idêntica a uma rotação ortogonal e a matriz de
correlação de fatores deve ser uma matriz de identidade (isto é, todos os fatores têm
coeficientes de correlação de 0). Portanto, esta matriz pode ser usada para avaliar se é
razoável assumir a independência entre os fatores: para esses dados parece que não
podemos assumir a independência e, portanto, a solução girada obliquamente é
provavelmente uma melhor representação da realidade.
Em um nível teórico, a dependência entre nossos fatores não causa preocupação;
podemos esperar uma relação bastante forte entre medo de matemática, medo de
estatísticas e medo de computadores. Geralmente, as pessoas com menos
mentalidade e tecnologia enfrentam estatísticas. No entanto, não esperamos que
essas construções se correlacionem fortemente com o medo da avaliação dos pares
(porque essa construção é mais baseada socialmente). Na verdade, esse fator é o que
mais se correlaciona com todos os outros - então, em um nível teórico, as coisas
acabaram bem.

Pontuação do fator

Tendo alcançado uma solução adequada e girado essa solução, podemos observar os
escores dos fatores. O SPSS exibirá a matriz de pontuação do componente B (ver Seção
17.3.3.1) a partir da qual os escores dos fatores são calculados. Eu não reproduzi esta
tabela aqui porque não consigo pensar em uma razão pela qual a maioria das pessoas
gostaria de olhar para ela. Na análise original, pedimos que as pontuações sejam
calculadas com base no método Anderson-Rubin. Você encontrará essas pontuações
no editor de dados. Deve haver quatro novas colunas de dados (um para cada fator)
rotulado FAC1_1, FAC2_1, FAC3_1 e FAC4_1, respectivamente. Se você perguntou por
pontuação de fatores na rotação oblíqua, essas pontuações aparecerão no editor de
dados em quatro outras colunas denominadas FAC2_1 e assim por diante.

A saída 17.12 mostra os escores dos fatores para os 10 primeiros participantes.


Deveria ser bastante claro que o participante 9 obteve um grande pontuação nos
fatores 1 a 3 e, portanto, essa pessoa está muito ansiosa quanto às estatísticas,
informática e matemática, e menos ainda a respeito da avaliação por pares (fator 4).
Os escores do fator podem ser usados dessa maneira para avaliar o medo relativo de
uma pessoa em comparação com outro, ou podemos adicionar os escores para obter
uma pontuação única para cada participante (o que podemos assumir representa a
ansiedade do SPSS como um todo). Também podemos usar os escores dos fatores em
regressão quando grupos de preditores se correlacionam tanto que existe
multicolinearidade. No entanto, as pessoas normalmente não usam pontuações de
fatores, mas, em vez disso, somam resultados em itens que eles decidiram carregar no
mesmo fator (por exemplo, crie uma pontuação para ansiedade estatística, somando
as pontuações de uma pessoa nos itens 1, 3, 4, 5, 12, 16, 20 e 21).

Resumo

Para resumir, as análises revelaram quatro escalas subjacentes em nosso questionário


que podem ou não estar relacionadas a subcomponentes genuínos da ansiedade SPSS.
Parece também que uma solução girada obliquamente foi preferida devido às inter-
relações entre fatores. O uso da análise fatorial é puramente exploratório; deve ser
usado apenas para orientar futuras hipóteses, ou para informar os pesquisadores
sobre os padrões dentro dos conjuntos de dados. Muitas decisões são deixadas ao
pesquisador usando a análise fatorial e exorto você a tomar decisões informadas, em
vez de basear decisões sobre os resultados que você gostaria de obter. A próxima
pergunta é se a nossa escala é ou não confiável.

Como relatar análise fatorial


Ao relatar a análise fatorial, devemos fornecer aos nossos leitores informações
suficientes para formar uma opinião informada sobre o que fizemos. Devemos ser
claros sobre nossos critérios para extrair fatores e o método de rotação utilizado.
Também devemos produzir uma tabela das cargas de fator giradas de todos os itens e
valores de bandeira (em negrito) acima de um nível de critério (eu escolheria
pessoalmente .40, mas veja a Seção 17.4.6.2). Também devemos relatar o percentual
de variância que cada fator explica e possivelmente o autovalor também. A Tabela
17.1 mostra um exemplo de tal tabela para os dados SAQ (rotação oblíqua); note que
também relatei o tamanho da amostra no título. Na minha opinião, uma tabela de
carga de fator e uma descrição da análise são um mínimo. Você poderia considerar (se
não for muito grande), incluindo a tabela de correlações a partir da qual alguém
poderia reproduzir sua análise (se desejasse) e algumas informações sobre a
adequação do tamanho da amostra. Para este exemplo, podemos escrever algo assim:
uma análise do fator do eixo principal foi realizada nos 23 itens com rotação oblíqua
(oblimin) direto. A medida Kaiser-Meyer-Olkin verificou a adequação da amostragem
para a análise, KMO = .93 ("maravilhoso" de acordo com Hutcheson & Sofroniou,
1999) e todos os valores de KMO para itens individuais foram maiores que 0,77, o que
está bem acima da limite aceitável de .5 (Campo, 2013). Uma análise inicial foi
realizada para obter valores próprios para cada fator nos dados. Quatro fatores
tiveram autovalores sobre o critério de Kaiser de 1 e em combinação explicaram
50,32% da variância. A trama do bosque foi ambígua e mostrou inflexões que
justificariam a retenção de 2 ou 4 fatores. Mantivemos 4 fatores por causa do grande
tamanho da amostra e da convergência da trama de scree e do critério de Kaiser sobre
esse valor. A Tabela 17.1 mostra as cargas fatoriais após a rotação. Os itens que se
agrupam no mesmo fator sugerem que o fator 1 representa o medo das estatísticas, o
fator 2 representa preocupações de avaliação pelos pares, o fator 3 é um medo dos
computadores e o fator 4 um medo de matemática.

Análise de confiabilidade
Medidas de confiabilidade

Se você estiver usando a análise fatorial para validar um questionário, é útil verificar a
confiabilidade da sua escala.

Confiabilidade significa que uma medida (ou, neste caso, questionário) deve refletir
consistentemente a construção que está medindo. Uma maneira de pensar nisso é
que, sendo outras coisas iguais, uma pessoa deve obter a mesma pontuação em um
questionário se o completarem em dois momentos diferentes (já descobrimos que isso
é chamado de confiabilidade test-retest). Então, alguém que está aterrorizado com o
SPSS e que obtém altos resultados em nosso SAQ deve marcar de forma similar
altamente se testá-los um mês depois (assumindo que eles não tinham entrado em
algum tipo de terapia SPSS-ansiedade naquele mês). Outra maneira de olhar para a
confiabilidade é dizer que duas pessoas que são as mesmas em termos de construção a
ser medida devem obter o mesmo resultado. Então, se levássemos duas pessoas que
fossem igualmente SPSS-fóbicas, então deveriam obter pontuações mais ou menos
idênticas no SAQ. Da mesma forma, se tomarmos duas pessoas que adorassem o SPSS,
ambos deveriam obter pontuações igualmente baixas. Deve ser evidente que o SAQ
não seria uma medida precisa da ansiedade do SPSS se levássemos alguém que amasse
o SPSS e alguém que estava aterrorizado e obteve o mesmo resultado! Em termos
estatísticos, a maneira usual de ver a confiabilidade é baseada na idéia de que itens
individuais (ou conjuntos de itens) devem produzir resultados consistentes com o
questionário geral. Então, se levarmos a alguém com medo de SPSS, sua pontuação
geral no SAQ será alta; se o SAQ é confiável, então, se selecionarmos aleatoriamente
alguns itens, a pontuação da pessoa nesses itens também deve ser alta.

A maneira mais simples de fazer isso na prática é usar a confiabilidade de metade da


metade. Este método divide a escala definida em dois conjuntos selecionados
aleatoriamente de itens. Uma pontuação para cada participante é calculada em cada
metade da escala. Se uma escala é confiável, a pontuação de uma pessoa em uma
metade da escala deve ser a mesma (ou similar) em sua pontuação na outra metade.
Em vários participantes, os escores das duas metades do questionário devem se
correlacionar muito. A correlação entre as duas metades é a estatística calculada no
método de metade dividida, com grandes correlações sendo um sinal de
confiabilidade. O problema com este método é que existem várias maneiras pelas
quais um conjunto de dados pode ser dividido aleatoriamente em dois e, portanto, os
resultados podem ser um produto da forma como os dados foram divididos. Para
superar esse problema, Cronbach (1951) apresentou uma medida que é vagamente
equivalente a criar dois conjuntos de itens de todas as formas possíveis e a calcular o
coeficiente de correlação para cada divisão. A média desses valores é equivalente ao
alfa alpha de Cronbach, que é a medida mais comum da confiabilidade da escala:

Esta equação pode parecer complicada, mas na verdade não é. Para cada item em
nossa escala, podemos calcular duas coisas: a variação dentro do item e a covariância
entre um item específico e qualquer outro item na escala. Dito de outra forma,
podemos construir uma matriz de variação-covariância de todos os itens. Nesta matriz,
os elementos diagonais serão a variância dentro de um item específico, e os elementos
offdiagonais serão covariâncias entre pares de itens. A metade superior da equação é
simplesmente o número de itens (N) quadrados multiplicados pela covariância média
entre itens (a média dos elementos fora da diagonal na matriz de variância-covariância
acima mencionada). A metade inferior é a soma de todas as variações de itens e
covariâncias de itens (ou seja, a soma de tudo na matriz de variação-covariância).

Existe também uma versão padronizada do coeficiente, que usa essencialmente a


mesma equação, exceto que as correlações são usadas em vez de covariâncias e a
metade inferior da equação usa a soma dos elementos na matriz de correlação de
itens (incluindo os 1s que aparecem na diagonal daquela matriz). O alfa normal é
apropriado quando itens em uma escala são somados para produzir uma pontuação
única para essa escala (o alfa padronizado não é apropriado nesses casos). O alfa
padronizado é útil, no entanto, quando os itens uma escala é padronizada antes de ser
somada.

Interpretando o α de Cronbach (alguns contos cautelares)

Você verá frequentemente em livros ou artigos de revistas, ou será informado por


pessoas, que um valor de .7 a .8 é um valor aceitável para α de Cronbach; valores
substancialmente inferiores indicam uma escala não confiável. Kline (1999) observa
que, embora o valor geralmente aceito de .8 seja apropriado para testes cognitivos,
como testes de inteligência, para testes de habilidade, um ponto de corte de .7 é mais
adequado. Ele continua dizendo que ao lidar com construções psicológicas, os valores
abaixo mesmo .7 podem, de forma realista, ser esperados devido à diversidade das
construções que estão sendo medidas. Alguns até sugerem que, nos estágios iniciais
da pesquisa, valores tão baixos quanto .5 serão suficientes (Nunnally, 1978). No
entanto, existem muitas razões para não usar essas diretrizes gerais, entre elas, o fato
de distraí-lo de pensar o que o valor significa no contexto da pesquisa que você está
fazendo (Pedhazur & Schmelkin, 1991).

Vamos agora examinar algumas questões na interpretação do alfa, que foram


discutidas particularmente bem por Cortina (1993) e Pedhazur e Schmelkin (1991).
Primeiro, o valor de α depende do número de itens na escala. Você notará que a
metade superior da equação para α inclui o número de itens ao quadrado. Portanto, à
medida que o número de itens na escala aumenta, α aumentará. Como tal, é possível
obter um grande valor de α porque você tem muitos itens na escala e não porque sua
escala é confiável. Por exemplo, Cortina (1993) relata dados de duas escalas, ambas
com α = 0,8. A primeira escala tem apenas três itens, e a correlação média entre itens
foi respeitável .57; No entanto, a segunda escala teve 10 itens com uma correlação
média entre estes itens de um menos respeitável .28. Claramente, a consistência
interna dessas escalas difere, mas de acordo com a α de Cronbach são ambos
igualmente confiáveis.

Em segundo lugar, as pessoas tendem a pensar que o alfa mede a


"unidimensionalidade" ou a medida em que a escala mede um fator ou construção
subjacente. Isso é verdade quando há um fator subjacente aos dados (ver Cortina,
1993), mas Grayson (2004) demonstra que os conjuntos de dados com o mesmo α
podem ter estruturas de fatores muito diferentes. Ele mostrou que α = .8 pode ser
alcançado em uma escala com um fator subjacente, com dois fatores moderadamente
correlacionados e com dois fatores não correlacionados. Cortina (1993) também
mostrou que com mais de 12 itens e correlações bastante elevadas entre itens (r> .5),
α pode atingir valores ao redor e acima de .7 (.65 a .84). Estes resultados mostram que
α não deve ser usado como uma medida de "unidimensionalidade". Na verdade,
Cronbach (1951) sugeriu que, se existirem vários fatores, a fórmula deveria ser
aplicada separadamente aos itens relacionados a diferentes fatores. Por outras
palavras, se o seu questionário tiver subescalas, α deve ser aplicado separadamente a
estas subescalas.

O aviso final é sobre itens que têm um fraseio reverso. Por exemplo, no SAQ há um
item (questão 3) que foi redigido ao contrário de todos os outros itens. O item foi
"desvios padrão me excitam". Compare isso com qualquer outro item e você verá que
ele exige a resposta oposta. Por exemplo, o item 1 é "as estatísticas me fazem chorar".
Se você não gosta de estatísticas, então você concordará com esta declaração e, assim,
obterá uma pontuação de 5 em nossa escala. Para o item 3, se você odeia as
estatísticas, é improvável que os desvios padrão o excitam para que você discorda
fortemente e obtenha uma pontuação de 1 na escala. Esses itens com letras invertidas
são importantes para reduzir o viés de resposta; Os participantes precisarão prestar
atenção às questões. Para a análise fatorial, esse fraseio reverso não importa; Tudo o
que acontece é que você obtém um fator negativo ao carregar para itens reversos (na
verdade, você verá que o item 3 tem um fator negativo na saída 17.9). No entanto,
esses itens com pontuação reversa afetarão o alfa.
Para ver o porquê, pense na equação para o α de Cronbach. A metade superior
incorpora a covariância média entre os itens. Se um item for escrito de volta, ele terá
uma relação negativa com outros itens, portanto, as covariâncias entre esse item e
outros itens serão negativas. A média da covariância é a soma das covariâncias
divididas pelo número de covariâncias e, ao incluir um monte de valores negativos,
reduzimos a soma das covariâncias e, portanto, também reduzimos o α de Cronbach,
porque a metade superior da equação diminui. Em casos extremos, é possível obter
um valor negativo para o α de Cronbach, simplesmente porque a magnitude das
covariâncias negativas é maior do que a magnitude dos positivos. Um α negativo de
Cronbach não faz muito sentido, mas acontece, e se o fizer, pergunte-se se você incluiu
itens com itens reversos.

Se você tem itens com frase reversa, então você também deve reverter a maneira pela
qual eles são marcados antes de realizar a análise de confiabilidade. Isso é bastante
fácil. Para tomar nossos dados SAQ, temos um item que atualmente é classificado
como 1 = discorda fortemente, 2 = discorda, 3 = nenhum, 4 = concorda e 5 = concorda
fortemente. Isso é bom para os itens redigidos de tal forma que o acordo indica
ansiedade estatística, mas para o item 3 (desvios padrão me excitam), o
desentendimento indica ansiedade estatística. Para refletir numericamente,
precisamos reverter a escala de modo que 1 = concorde, 2 = concordar, 3 = não, 4 =
discordar e 5 = discordar fortemente. Ao fazê-lo, uma pessoa ansiosa ainda recebe 5
neste item (porque eles estavam totalmente em desacordo com isso).

Para reverter a pontuação, procure o valor máximo da escala de resposta (neste caso
5) e adicione 1 a ela (para que você tenha 6 neste caso). Então, para cada pessoa, você
tira esse valor e resta da nota que eles realmente conseguiram. Portanto, alguém que
marcou 5 originalmente agora classifica 6-5 = 1, e alguém que marcou 1 originalmente
agora recebe 6-1 = 5. Alguém no meio da escala com uma pontuação de 3 ainda
receberá 6-3 = 3. Obviamente, levaria muito tempo para fazer isso por cada pessoa,
mas podemos fazer com que a SPSS faça isso por nós.

Análise de confiabilidade no SPSS

Vamos testar a confiabilidade do SAQ usando os dados no SAQ.sav. Você deve ter o
item 3 com referência inversa (veja acima), mas se você não pode ser incomodado,
então carregue o arquivo SAQ (Item 3 Invertido) .sav em vez disso. Lembre-se também
de que eu disse que devemos realizar análises de confiabilidade em qualquer
subescalas individualmente. Se usarmos os resultados de nossa rotação oblíqua (saída
17.9), temos quatro subescalas:
Para realizar cada análise de confiabilidade nesses dados, você precisa selecionar
ANALYZE-SCALE-RELIABILITY ANALYSIS para exibir a caixa de diálogo na Figura 17.15.
Selecione os itens da lista que deseja analisar (para começar, vamos fazer os itens da
subescala de medo de estatísticas: itens 1, 3, 4, 5, 12, 16, 20 e 21) no lado esquerdo da
caixa de diálogo e arraste-os para a caixa rotulada Itens (ou clique em ). Lembre-se
de que você pode selecionar vários itens ao mesmo tempo, se você pressionar a tecla
Ctrl (Cmd em um Mac) enquanto você seleciona as variáveis.

Existem várias análises de confiabilidade que você pode executar, mas a opção padrão
é α de Cronbach. Você pode alterar o método (por exemplo, para o método de metade
dividida) clicando para revelar uma lista suspensa de possibilidades, mas o
método padrão é bom para selecionar. Além disso, é uma boa idéia digitar o nome da
escala (neste caso, "Medo das estatísticas") na caixa denominada Etiqueta Escala
porque isso irá adicionar um cabeçalho à saída do SPSS com o que você digitar nesta
caixa: digitar uma sensível O nome aqui tornará sua saída mais fácil de seguir.

Se você clicar em você pode acessar a caixa de diálogo na Figura 17.16. Na


caixa de diálogo de estatísticas, você pode selecionar várias coisas, mas a mais
importante para a confiabilidade do questionário é: Escala se o item for excluído. Esta
opção nos informa qual seria o valor de α se cada item fosse excluído. Se nosso
questionário for confiável, não esperamos que nenhum item afete a confiabilidade
global. Em outras palavras, nenhum item deve causar uma diminuição substancial em
α. Se assim for, você deve considerar deixar esse item do questionário para melhorar a
confiabilidade.
As correlações e covariâncias inter-item (e resumos) nos fornecem coeficientes de
correlação e médias para itens em nossa escala. Nós já devemos ter esses valores a
partir de nossa análise fatorial, por isso é pouco para selecionar essas opções. Opções
como o teste F, Friedman chi-square (se seus dados estiverem classificados), Cochran
chi- square (se seus dados forem dicotômicos) e o Tsquare da Hotelling use esses
testes para comparar a tendência central de diferentes itens no questionário. Esses
testes podem ser úteis para verificar se os itens possuem propriedades de distribuição
semelhantes (ou seja, o mesmo valor médio), mas dado os grandes tamanhos de
amostra que você deve usar para a análise fatorial, eles inevitavelmente produzirão
resultados significativos mesmo quando existam pequenas diferenças entre os itens do
questionário.

Você também pode solicitar um coeficiente de correlação intraclasse (ICC). Os


coeficientes de correlação que encontramos anteriormente neste livro medem a
relação entre variáveis que medem coisas diferentes. Por exemplo, a correlação entre
escutar Deathspell Omega e Satanismo envolve duas classes de medidas: o tipo de
música que uma pessoa gosta e suas crenças religiosas. As correlações intra-classifica a
relação entre duas variáveis que medem a mesma coisa (ou seja, variáveis na mesma
classe). Dois usos comuns são comparar dados emparelhados (como gêmeos) na
mesma medida e avaliar a consistência entre as classificações dos juízes de um
conjunto de objetos (daí o motivo pelo qual ele é encontrado nas estatísticas de
confiabilidade no SPSS). Se você quiser saber mais, consulte a seção
20.2.1.
Use o conjunto simples de opções na Figura 17.16 para executar uma análise básica de
confiabilidade. Clique em para retornar à caixa de diálogo principal e depois clique em
para executar a análise.

Saída de análise de confiabilidade

A saída 17.13 mostra os resultados desta análise básica de confiabilidade para o medo
da subescala de estatísticas. O valor de α de Cronbach é apresentado em uma pequena
tabela e indica a confiabilidade geral da escala. Tendo em mente o que já observamos
sobre os efeitos da quantidade de itens, e como é improvável aplicar regras gerais,
estamos procurando valores na região de cerca de .7 a .8. Neste caso, α é .821, que é
certamente na região indicada por Kline (1999), e provavelmente indica boa
confiabilidade.

Na tabela rotulada Item-Total Statistics, a coluna rotulada Corrected Item-Total


Correlation possui as correlações entre cada item e a pontuação total do questionário.
Em uma escala confiável, todos os itens devem se correlacionar com o total. Então,
estamos à procura de itens que não se correlacionem com a pontuação geral da
escala: se algum desses valores for inferior a cerca de .3, então temos problemas,
porque isso significa que um item específico não se correlaciona muito bem com a
escala geral. Os itens com correlações baixas podem ter que ser descartados. Para
esses dados, todos os dados possuem correlações total do item acima .3, o que é
encorajador.

Os valores na coluna denominada Alpha de Cronbach se o item Excluído são os valores


do geral α se esse item não estiver incluído no cálculo. Como tal, eles refletem a
mudança no α de Cronbach que seria visto se um item específico fosse excluído. O α
geral é .821 e, portanto, todos os valores nesta coluna devem estar em torno desse
mesmo valor. Na verdade, estamos procurando valores de alfa maiores que o α global.
Se você pensar sobre isso, se a exclusão de um item aumentar o α de Cronbach, isso
significa que a exclusão desse item melhora a confiabilidade. Portanto, qualquer item
que tenha valores de α nesta coluna maior que o α global pode precisar ser excluído da
escala para melhorar sua confiabilidade. Nenhum dos itens aqui aumentaria o alfa se
eles fossem excluídos, o que é uma boa notícia. Vale a pena notar que, se os itens
precisam ser removidos nesta fase, você deve rever sua análise fatorial também para
se certificar de que a exclusão do item não afetou a estrutura do fator.

Apenas para ilustrar a importância dos itens de pontuação reversa antes de executar a
análise de confiabilidade, a saída 17.14 mostra a análise de confiabilidade para o medo
da subescala de estatísticas, mas feita nos dados originais (ou seja, sem que o item 3
seja marcado de forma reversa). Observe que o α global é consideravelmente menor
(0,605 em vez de 0,821). Além disso, note que este item tem uma correlação total de
itens negativos (o que é uma boa maneira de detectar se você possui um potencial
item com pontuação inversa nos dados que não foram marcados de forma reversa).
Finalmente, observe que, para o item 3, o item α se excluído é .8. Ou seja, se esse item
fosse excluído, a confiabilidade melhoraria de aproximadamente 0,6 a cerca de .8. Isso,
espero, ilustra que, ao invés de reverter, os itens que foram formulados de forma
oposta a outros itens na escala prejudicarão sua análise de confiabilidade.

Vejamos agora a nossa subescala da avaliação de pares. Para a nossa subescala de


avaliação por pares, você deve obter o resultado na saída 17.15. A confiabilidade geral
é .57, que não é nada para assar um bolo. O α global é bastante baixo e, embora isso
esteja de acordo com o que Kline diz que devemos esperar para este tipo de dados de
ciências sociais, está bem abaixo da subescala de estatísticas e (como veremos) os
outros dois. A escala tem cinco itens, em comparação com sete, oito e três nas outras
escalas, de modo que sua confiabilidade em relação às outras escalas não vai ser
dramaticamente afetada pela quantidade de itens. Os valores na coluna rotulada
Correção de correção total do item estão em torno de .3 e menores para o item 23.
Esses resultados indicam novamente consistência interna questionável e identificam o
item 23 como um problema potencial. Os valores na coluna denominada Alpha de
Cronbach, se Item Deletado, indicam que nenhum dos itens aqui aumentaria a
confiabilidade se eles fossem excluídos porque todos os valores nesta coluna são
menores que a confiabilidade geral de .57. Os itens desta subescala abrangem uma
série bem diversificada de avaliação de pares, o que pode explicar a relativa falta de
consistência; provavelmente precisamos repensar essa subescala.
Passando à subescala do medo da computação, a saída 17.16 mostra um α global
de .823, o que é muito bom. Os valores na coluna rotulada Correção de correção total
do item são novamente todos acima .3, o que também é bom. Os valores na coluna
denominada Alpha de Cronbach, se Item Deletado, mostram que nenhum dos itens
aumentaria a confiabilidade se eles fossem excluídos. Isso indica que todos os itens
contribuem positivamente para a confiabilidade geral.

Finalmente, para a subescala do medo de matemática, a saída 17.17 mostra uma


confiabilidade geral de .819, o que indica boa confiabilidade. Os valores na coluna
rotulada Correção de Correção Total do Item são todos acima .3, o que é bom, e os
valores na coluna denominada Alfa de Cronbach se o Item Excluido indicar que
nenhum dos itens aqui aumentaria a confiabilidade se eles fossem excluídos porque
todos Os valores nesta coluna são inferiores ao valor geral de confiabilidade.
Como relatar análise de confiabilidade

Você pode relatar as confiabilidades no texto usando o símbolo α e lembrando que,


porque o α de Cronbach não pode ser maior do que 1, soltamos o zero antes da casa
decimal (se estivermos seguindo a prática APA):

 O medo dos computadores, o medo das estatísticas e o medo das subescalas


de matemática do SAQ apresentavam altas confiabilidades, todas α de
Cronbach = 0,82.

No entanto, o medo de uma subescala de avaliação de pares negativa teve uma


confiabilidade relativamente baixa, α α = 0,57 de Cronbach. No entanto, a maneira
mais comum de relatar análise de confiabilidade quando segue uma análise fatorial é
reportar os valores de α de Cronbach como parte da tabela de fator de carga. Por
exemplo, na Tabela 17.1 observe que, na última linha da tabela, citei o valor da α de
Cronbach para cada subescala por sua vez.

Você também pode gostar