Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo Do Livro de Andy Field
Resumo Do Livro de Andy Field
Você
quer ser sucinto, então você não deve apresentar os mesmos valores de múltiplas maneiras: se
você tiver um gráfico mostrando alguns resultados, então não produza também uma tabela
dos mesmos resultados: é um desperdício de espaço. O APA fornece as seguintes diretrizes:
✓ Se você precisar apresentar mais de 20 números, um gráfico geralmente é mais útil do que
uma tabela.
Destes, acho que o primeiro é o mais importante: posso pensar em inúmeras situações em que
eu gostaria de usar um gráfico em vez de uma tabela para apresentar valores 4-20 porque um
gráfico mostrará o padrão de dados com maior clareza. Da mesma forma, posso imaginar
alguns gráficos que apresentam mais de 20 números sendo uma bagunça absoluta. Isso me
leva de volta ao meu ponto em que as regras não são um substituto do senso comum, e o mais
importante é apresentar os dados de uma maneira que facilita a leitura do leitor. Veremos
como apresentar gráficos no Capítulo 4 e analisaremos a tabulação de dados em vários
capítulos quando discutimos a melhor forma de denunciar os resultados de análises
específicas.
Uma segunda questão geral é a quantidade de casas decimais a serem usadas ao reportar
números. O principal orientador da APA (que eu acho sensível) é que a menor decimal
Coloca o melhor, o que significa que você deve arredondar o máximo possível, mas tenha em
mente a precisão da medida que você está reportando. Este princípio reflete novamente
tornando fácil para o leitor entender os dados. Vejamos um exemplo. Às vezes, quando uma
pessoa não responde a alguém, eles vão perguntar: 'O que há de errado? O gato pegou sua
língua? "Na verdade, meu gato tem uma grande coleção de línguas humanas cuidadosamente
preservadas que ele mantém em uma caixa sob as escadas. Periódicamente, ele pegará um,
põe-o na boca e anda por a vizinhança assustando as pessoas com sua grande língua. Se eu
medei a diferença de comprimento entre sua língua real e sua língua humana falsa, eu poderia
relatar essa diferença como 0,0425 metros, 4,25 centímetros, ou 42,5 milímetros. Este
exemplo ilustra três pontos: (1) Eu precisava de um número diferente de casas decimais (4, 2 e
1, respectivamente) para transmitir a mesma informação em cada caso; (2) 4,25 cm
provavelmente é mais fácil para alguém digerir do que 0,0425 metros porque ele usa menos
casas decimais, e (3) meu gato é estranho. O primeiro ponto demonstra que não é o caso que
você sempre use, digamos, duas casas decimais; Você deve usar o que for necessário em uma
situação particular. O segundo ponto implica que, se você tiver uma medida muito pequena,
vale a pena considerar se você pode usar uma escala diferente para tornar os números mais
palatáveis.
Finalmente, cada conjunto de diretrizes incluirá conselhos sobre como denunciar análises
específicas.
E estatísticas. Por exemplo, ao descrever os dados com uma medida de tendência central, a
APA sugere que você use M (capital M em itálico) para representar a média, mas está bem
com você usando a notação matemática (X -) também. No entanto, você deve ser consistente:
se você usar M para representar o significado que você deve fazer em seu artigo. Existe
também um princípio sensato de que, se você informar um resumo dos dados, como a média,
você também deve informar a medida apropriada da propagação dos escores. Então, as
pessoas não conhecem apenas a localização central dos dados, mas também a forma como se
espalhou. Portanto, sempre que relatamos a média, geralmente relatamos o desvio padrão
também. O desvio padrão é geralmente denotado por SD, mas também é comum
simplesmente colocá-lo entre parênteses, desde que você indique que você está fazendo isso
no texto. Aqui estão alguns exemplos deste capítulo:
✓ Andy tem 2 amigos no Facebook. Em média, uma amostra de outros usuários (N 11) teve
consideravelmente mais, M 95, SD 56,79.
A média nacional.
✓ Ao ler este capítulo, descobrimos que (SD entre parênteses), em média, as pessoas têm 95
(56,79) amigos no Facebook e há 36 (13) suicídios por ano em Beachy Head.
Observe que, no primeiro exemplo, usei N para indicar o tamanho da amostra. Esta é uma
abreviatura comum: uma N principal é a amostra inteira e uma minúscula n representa uma
subamostra (por exemplo, a quantidade de casos em um grupo específico). Da mesma forma,
quando relatamos medianas, há uma notação específica (a APA sugere Mdn) e devemos
relatar a faixa ou intervalo interquartil também (a APA não tem uma abreviatura para nenhum
desses termos, mas IQR é comumente usado para o interquartil alcance). Portanto, podemos
relatar:
✓ Andy tem 2 amigos no Facebook. Uma amostra de outros usuários (N 11) geralmente tinha
mais, Mdn 98, IQR 63.
Vamos dar um passo atrás e pensar o que aconteceria se não introduzíssemos uma
manipulação experimental (ou seja, não havia bananas na segunda fase de treinamento,
portanto a condição 1 e a condição 2 eram idênticas). Se não houver manipulação
experimental, esperamos que o comportamento de um chimpanzé seja semelhante em ambas
as condições. Nós esperamos isso porque fatores externos como idade, gênero, QI, motivação
e excitação serão os mesmos para ambas as condições (o gênero de um chimpanzé, etc., não
mudará de onde eles são testados na condição 1 para quando são testados na condição 2) . Se
a medida de desempenho é confiável (ou seja, nossa prova de quão bem eles correm a
economia), e a variável ou característica que estamos medindo (neste caso, capacidade de
administrar uma economia) permanece estável ao longo do tempo, então o desempenho de
um participante em condição 1 deve estar muito relacionado ao seu desempenho na condição
2. Então, os chimpanzés que obtêm alta na condição 1 também marcarão altamente na
condição 2, e aqueles com baixa pontuação para a condição 1 terão baixa pontuação na
condição 2. No entanto, o desempenho não será idêntico; haverá pequenas diferenças de
desempenho criadas por fatores desconhecidos. Essa variação no desempenho é conhecida
como variação não sistemática.
Agora vamos pensar sobre o que acontece quando usamos diferentes participantes - um
design independente. Neste projeto ainda temos duas condições, mas desta vez participantes
diferentes participam de cada condição. Voltando ao nosso exemplo, um grupo de chimpanzés
recebe treinamento sem feedback, enquanto um segundo grupo de chimpanzés diferentes
recebe feedback sobre o seu desempenho através de bananas. Imagine novamente que não
tivemos uma manipulação experimental. Se não fizessemos nada aos grupos, então ainda
encontraríamos alguma variação no comportamento entre os grupos porque eles contêm
chimpanzés diferentes que variam em sua capacidade, motivação, propensão para se distrair
de correr a economia jogando suas próprias fezes e outros Fatores. Em suma, o tipo de fatores
que foram mantidos constantes no design de medidas repetidas são livres de variar no design
independente. Assim, a variação não sistemática será maior do que para um design de
medidas repetidas. Como antes, se introduzirmos uma manipulação (ou seja, bananas),
veremos variação adicional criada por essa manipulação. Como tal, tanto no design de
medidas repetidas quanto no design independente, há sempre duas fontes de variação:
Variação sistemática: esta variação deve-se ao experimentador fazer algo em uma condição,
mas não na outra condição.
Variação não sistemática: esta variação resulta de fatores aleatórios que existem entre as
condições experimentais (como diferenças naturais de habilidade, hora do dia, etc.).
P-valor de Fisher
Fisher (1925/1991) descreveu um experimento projetado para testar uma
reivindicação por uma mulher que ela poderia determinar, provando uma xícara de
chá, se o leite ou o chá foram adicionados primeiro ao copo. Fisher pensou que devia
dar à mulher algumas xícaras de chá, algumas das quais tinham o leite adicionado em
primeiro lugar e alguns dos quais tinham o leite adicionado por último, e ver se ela
poderia identificá-los corretamente. A mulher saberia que há um número igual de
copos em que o leite foi adicionado primeiro ou último, mas não saberia em qual
ordem os copos foram colocados. Se tomarmos a situação mais simples em que há
apenas duas xícaras, a mulher tem 50% de chances de adivinhar corretamente. Se ela
adivinhe corretamente, não teríamos tanto gosto de concluir que ela pode dizer a
diferença entre copos em que o leite foi adicionado e copos em que foi adicionado por
último, porque, mesmo supondo que ela estaria correta na metade do tempo. No
entanto, e se complicarmos coisas por seis copos? Há 20 ordens nas quais esses copos
podem ser organizados e a mulher adivinhar a ordem correta apenas 1 vez em 20 (ou
5% do tempo). Se ela obtivesse a ordem correta, ficaria muito mais confiante de que
ela realmente poderia dizer a diferença (e se reverter com sua paleta finamente
sintonizada). Se você quiser saber mais sobre Fisher e suas excentricidades de
degustação de chá, veja o excelente livro de David Salsburg The lady teasting tea
(Salsburg, 2002). Para os nossos propósitos, o ponto de levar a casa é só quando houve
uma probabilidade muito pequena de que a mulher pudesse completar a tarefa de chá
por sorte sozinha, concluiríamos que ela tinha habilidade genuína em detectar se o
leite foi derramado em uma xícara antes ou depois do chá.
Não é por acaso que escolhi o exemplo de seis copos acima (onde o provador de chá
teve 5% de chances de conseguir a tarefa corretamente adivinhando), porque os
cientistas tendem a acreditar que 5% é um limite útil para a confiança: somente
quando há uma chance de 5% (ou .05 probabilidade) de obter os dados que temos se
não houver efeito, temos confiança suficiente para aceitar que o efeito é genuíno.7 O
ponto básico de Fisher foi que você deve calcular a probabilidade de um evento e
avaliar isso dentro do contexto da pesquisa. Embora Fisher tenha sentido uma p = .01
seria evidência forte para respaldar uma hipótese, e talvez uma p = .20 seja uma
evidência fraca, ele nunca disse que p = 0,05 era, de qualquer forma, um número
especial.
Tipos de hipótese
Em contraste com Fisher, Neyman e Pearson acreditavam que as declarações
científicas deveriam ser divididas em hipóteses testáveis. A hipótese ou a predição de
sua teoria normalmente seria que um efeito estará presente. Esta hipótese é chamada
de hipótese alternativa e é indicada por H1. (Às vezes, também é chamado de hipótese
experimental, mas porque este termo se relaciona com um tipo específico de
metodologia, provavelmente é melhor usar "hipóteses alternativas"). Existe outro tipo
de hipótese chamada hipótese nula, que é denotada por H0. Esta hipótese é o oposto
da hipótese alternativa e, portanto, geralmente afirma que um efeito está ausente.
Muitas vezes, quando escrevo, meus pensamentos são atraídos para o chocolate. Eu
acredito que eu comeria menos se eu pudesse parar de pensar sobre isso. No entanto,
de acordo com Morewedge, Huh e Vosgerau (2010), isso não é verdade. Na verdade,
eles descobriram que as pessoas comiam menos comida se antes imaginassem comê-
la. Imagine que fizemos um estudo semelhante; Podemos gerar as seguintes hipóteses:
1. Hipótese alternativa: se você imaginar comer chocolate, você comerá menos.
2. Hipótese nula: se você imaginar comer chocolate, você comerá a mesma
quantidade que o normal.
A razão pela qual precisamos da hipótese nula é que não podemos provar a hipótese
experimental usando estatísticas, mas podemos coletar evidências para rejeitar a
hipótese nula. Se nossos dados nos dão confiança para rejeitar a hipótese nula, isso
fornece suporte para nossa hipótese experimental. No entanto, esteja ciente de que,
mesmo que possamos rejeitar a hipótese nula, isso não prova a hipótese
experimental - ela apenas o suporta. Então, ao invés de falar sobre aceitar ou rejeitar
uma hipótese (que alguns livros de texto lhe dizem para fazer) devemos falar sobre "as
chances de obter os dados que coletamos assumindo que a hipótese nula é
verdadeira".
Imagine em nosso estudo que levamos 100 pessoas e medimos quantos pedaços de
chocolate costumavam comer (dia 1). No dia 2, conseguimos que eles imaginassem
comer chocolate e novamente mediram a quantidade de chocolate que eles comiam
naquele dia. Imagine que descobrimos que 75% das pessoas comiam menos chocolate
no segundo dia do que o primeiro. Quando analisamos nossos dados, estamos
realmente perguntando: "Supondo que imaginar comer chocolate não tem nenhum
efeito, é provável que 75% das pessoas comam menos chocolate no segundo dia?"
Intuitivamente, a resposta é que as chances são muito baixas: Se a hipótese nula for
verdadeira, então todos devem comer a mesma quantidade de chocolate nos dois
dias. Portanto, é muito improvável que obtenhamos os dados que fizemos se a
hipótese nula fosse verdadeira.
E se descobrimos que apenas 1 pessoa (1%) com menos chocolate no segundo dia? Se
a hipótese nula for verdadeira e a imagem comendo chocolate não tem efeito sobre o
consumo, então nenhuma pessoa deve comer menos no segundo dia. As chances de
obter esses dados se a hipótese nula for verdadeira são, portanto, maiores que antes.
Quando nós colecionamos dados para testar teorias, temos que trabalhar nestes
termos: não podemos falar sobre a hipótese nula sendo verdadeira ou a hipótese
experimental sendo verdadeira, só podemos falar em termos da probabilidade de
obter um determinado conjunto de dados se, hipoteticamente falando, a hipótese nula
era verdadeira. Vamos elaborar essa idéia na próxima seção.
As hipóteses podem ser direcionais ou não direcionais. Uma hipótese direcional indica
que um efeito ocorrerá, mas também indica a direção do efeito. Por exemplo, "se você
imaginar comer chocolate, você comerá menos" é uma hipótese de uma única, porque
indica a direção do efeito (as pessoas comerão menos). Uma hipótese não direcional
afirma que um efeito ocorrerá, mas não indica a direção do efeito. Por exemplo,
"imaginar comer chocolate afeta a quantidade de chocolate que você come" não nos
diz se eles comerão mais ou menos.
O contrário é um erro de Tipo II, que ocorre quando acreditamos que não há efeito na
população quando, na realidade, existe. Isso ocorreria quando obtivemos uma
pequena estatística de teste (talvez porque haja muita variação natural entre nossas
amostras). Em um mundo ideal, queremos que a probabilidade desse erro seja muito
pequena (se houver um efeito na população, então é importante que possamos
detectá-lo).
Cohen (1992) sugere que a probabilidade máxima aceitável de um erro de Tipo II seria
de .2 (ou 20%) - isso é chamado de nível β. Isso significaria que, se tomássemos 100
amostras de dados de uma população em que existe um efeito, não conseguiríamos
detectar esse efeito em 20 dessas amostras (então, perderíamos 1 em 5 efeitos
genuínos).
A relação exata entre o erro Tipo I e Tipo II não é direta porque eles são baseados em
diferentes pressupostos: para fazer um erro Tipo I, não tem que haver efeito na
população, ao passo que para fazer um erro tipo II o oposto é verdadeiro ( Tem que
haver um efeito que perdemos). Então, embora nós saibamos que, à medida que a
probabilidade de fazer um erro Tipo I diminui, a probabilidade de aumentar o erro Tipo
II, a natureza exata do relacionamento é geralmente deixada para o pesquisador fazer
um palpite educado (Howell, 2012, dá Uma ótima explicação sobre o trade-off entre
erros).
Como vimos, se um teste usa um nível de significância de .05, a chance de fazer um
erro de Tipo I é de apenas 5%. Logicamente, então, a probabilidade de nenhum erro de
Tipo I é de .95 (95%) para cada teste. No entanto, na ciência, raramente é possível que
possamos obter uma resposta definitiva à nossa pergunta de pesquisa usando um
único teste em nossos dados: muitas vezes precisamos realizar vários testes. Por
exemplo, imagine que queremos olhar para os fatores que afetam o quão viral um
vídeo se torna no YouTube. Você pode prever que a quantidade de humor e inovação
no vídeo serão fatores importantes. Para testar isso, você pode olhar para a relação
entre o número de sucessos e medidas tanto do conteúdo humor quanto da inovação.
No entanto, você provavelmente também deve analisar se o conteúdo de inovação e
humor também estão relacionados. Portanto, você precisaria fazer três testes. Se
assumirmos que cada teste é independente (que neste caso eles não serão, mas nos
permite multiplicar as probabilidades), então a probabilidade geral de nenhum erro
Tipo I será (.95) 3 = .95 × .95 × .95 = .857, porque a probabilidade de nenhum erro de
Tipo I é de .95 para cada teste e há três testes. Dado que a probabilidade de nenhum
erro de Tipo I é de .857, então a probabilidade de fazer pelo menos um erro de Tipo I é
esse número subtraído de 1 (lembre-se de que a probabilidade máxima de ocorrência
de um evento é 1). Portanto, a probabilidade de pelo menos um erro de Tipo I é 1 -
8557 = .143, ou 14,3%. Portanto, em todo esse grupo de testes, a probabilidade de
fazer um erro de Tipo I aumentou de 5% para 14,3%, um valor maior do que o critério
convencional. Esta taxa de erro em todos os testes estatísticos realizados nos mesmos
dados é conhecida como a taxa de erro familiar ou experimental. Nosso cenário com
três testes é relativamente simples e o efeito de realizar vários testes não é grave, mas
imagine que aumentamos o número de testes de três para dez. A taxa de erro em
família pode ser calculada usando a seguinte equação (assumindo que você usa um
nível de significância de .05).
Nesta equação n é o número de testes realizados nos dados. Com 10 testes realizados,
a taxa de erro no sentido da família é 1 -9510 = .40, o que significa que há 40% de
chance de ter feito pelo menos um erro de Tipo I.
Para combater esta acumulação de erros, podemos ajustar o nível de significância para
testes individuais, de modo que a taxa geral de erro de Tipo I (α) em todas as
comparações permaneça em .05. Há várias maneiras pelas quais a taxa de erro na
família pode ser controlada. A maneira mais popular (e mais fácil) é dividir α pelo
número de comparações, k:
Portanto, se realizarmos 10 testes, usamos .005 como nosso critério de significância.
Ao fazê-lo, garantimos que o erro cumulativo de Tipo I permaneça abaixo de .05. Este
método é conhecido como a correção de Bonferroni (Figura 2.14). Há um trade-off
para controlar a taxa de erro em família, e isso é uma perda de poder estatístico, que é
o próximo tópico em nossa agenda.
Poder Estatístico
Vimos que é importante controlar a taxa de erro Tipo I, de modo que muitas vezes não
pensamos equivocadamente que um efeito é significativo quando não é.
O problema oposto relaciona-se ao erro de Tipo II, que é a frequência com que
faltaremos um efeito na população que realmente existe. Se configurarmos a taxa de
erro de Tipo II alta, provavelmente perderemos muitos efeitos genuínos, mas se
configurarmos a baixa, seremos menos propensos a perder os efeitos.
A capacidade de um teste para encontrar um efeito é conhecida como seu poder
estatístico. O poder de um teste é a probabilidade de um determinado teste encontrar
um efeito assumindo que existe na população. Este é o oposto da probabilidade de um
determinado teste não encontrar um efeito assumindo que existe na população, o que
como vimos é o nível β (isto é, taxa de erro Tipo II).
Portanto, o poder de um teste pode ser expresso como 1 - β. Dado que Cohen (1988,
1992) recomenda uma probabilidade de .2 de não detectar um efeito genuíno (ver
acima), o nível de energia correspondente seria 1 -.2 ou .8. Portanto, geralmente
procuramos alcançar um poder de .8, ou dito de outra forma, uma chance de 80% de
detectar um efeito se realmente existir. O poder de um teste estatístico depende do
seguinte:
1. Quão grande é o efeito, porque os efeitos maiores serão mais fáceis de detectar.
Isso é conhecido como o tamanho do efeito e discutiremos isso na Seção 2.7.1).
Dado que o poder (1-β), o nível α, o tamanho da amostra e o tamanho do efeito estão
todos vinculados, se conheçamos três dessas coisas, então podemos descobrir o
restante. Há dois aspectos que os cientistas fazem com esse conhecimento:
Observe na Figura 2.16 que as médias para cada amostra são as mesmas em ambos os
gráficos, mas os intervalos de confiança são muito mais estreitos quando as amostras
contêm 100 pontuações em comparação com quando elas contêm apenas 10
pontuações.
Você pode pensar que isso é estranho dado que eu disse que todos os desvios padrão
eram os mesmos (ou seja, 3). Se você pensa de volta à forma como o intervalo de
confiança é calculado, é a média mais ou menos 1,96 vezes o erro padrão.
O erro padrão é o desvio padrão dividido pela raiz quadrada do tamanho da amostra
(ver equação (2.8));
S
σ = √N
Portanto, à medida que o tamanho da amostra aumenta, o erro padrão (e, portanto, o
intervalo de confiança) ficará menor. Vimos na seção anterior que se os intervalos de
confiança de duas amostras tiverem o mesmo comprimento, então um p de cerca
de .05 é representada por uma sobreposição de cerca de um quarto do intervalo de
confiança. Portanto, podemos ver que, embora as médias e os desvios-padrão sejam
idênticos em ambos os gráficos, o estudo que tem apenas 10 pontuações por amostra
não é significativo (as barras se sobrepõem muito, na verdade p = .15), mas o estudo
que tem 100 pontuações por amostra mostra uma diferença altamente significativa (as
barras não se sobrepõem, p <0,001). Lembre-se, as médias e os desvios padrão são
idênticos nos dois gráficos, mas o tamanho da amostra afeta o erro padrão e,
portanto, o significado.
Levando esse relacionamento ao extremo, podemos ilustrar isso com uma amostra
bastante grande, mesmo que uma diferença completamente sem sentido entre dois
meios possa ser considerada significativa com p <0,05. A Figura 2.17 mostra essa
situação. Desta vez, o grupo de canto tem uma média de 10,00 (SD = 3) e o grupo de
conversação tem uma média de 10,01 (SD = 3): uma diferença de 0,01 - uma diferença
muito pequena. O gráfico principal parece muito estranho: as médias parecem
idênticas e não há intervalos de confiança. Na verdade, os intervalos de confiança são
tão estreitos que se fundem em uma única linha. A figura também mostra uma
imagem ampliada dos intervalos de confiança (note que os valores no eixo vertical
agora variam de 9.98 a 10.02 para que todo o intervalo de valores que estamos
mostrando é apenas 0.04). Como você pode ver, as médias da amostra são 10 e 10.01
como mencionado anteriormente, 9, mas agora ampliamos a imagem, podemos ver os
intervalos de confiança. Observe que os intervalos de confiança mostram uma
sobreposição de cerca de um quarto, o que equivale a um valor de significância de
cerca de p = 0,05 (para esses dados, o valor real de p é 0,44). Como é possível que
possamos dois meios de amostra que sejam quase idênticos (10 e 10.01) e que tenham
os mesmos desvios padrão, mas que sejam significativamente diferentes? A resposta é
novamente o tamanho da amostra: há 1 milhão de casos em cada amostra, então os
erros padrão são minúsculos.
Esta seção fez dois pontos importantes.
Primeiro, o tamanho da amostra afeta se a diferença entre as amostras é considerada
significativa ou não.
Em grandes amostras pequenas diferenças podem ser significativas;
E em amostras pequenas grandes diferenças podem ser não significativas.
Este ponto diz respeito ao poder: grandes amostras têm mais poder para detectar
efeitos.
Em segundo lugar, mesmo uma diferença de praticamente zero pode ser considerada
"significativa" se o tamanho da amostra for grande o suficiente.
Lembre-se de que as estatísticas de teste são efetivamente a proporção de sinal para
ruído, e o erro padrão é a nossa medida de "ruído de amostragem".
O erro padrão é estimado a partir do tamanho da amostra, e quanto maior o tamanho
da amostra, menor será o erro padrão.
Problemas com NHST
O NHST é o método dominante para testar teorias usando estatísticas. É atraente
porque oferece um quadro baseado em regras para decidir se acredita em uma
hipótese particular.
Também é atraente ensinar porque, mesmo que seus alunos não compreendam a
lógica por trás do NHST, a maioria deles consegue lidar com a ideia de que p <.05 é
"significativo" e um p> .05 não é. Como fazer um bolo, oferece uma receita que, se
seguida corretamente, parece fornecer "a resposta correta". Ninguém gosta de fazer
as coisas erradas e, ao seu valor nominal, a NHST dá uma orientação bastante clara
sobre o que é a conclusão "certa" e o que é "errado". No entanto, aqui estão duas das
minhas citações favoritas sobre NHST:
A dependência quase universal de apenas refutar a hipótese nula é um
erro terrível, é basicamente uma estratégia científica errônea e fraca e
uma das piores coisas que já aconteceu na história da psicologia.
(Meehl, 1978, p. 817)
NHST; Eu resisti à tentação de chamá-lo de teste de inferência de
hipóteses estatísticas. (Cohen, 1994, p. 997)
Um resultado significativo significa que a hipótese nula é falsa? Errado de novo. Uma
estatística de teste significativa é baseada no raciocínio probabilístico, que limita
severamente o que podemos concluir. Cohen (1994), que era um escritor
incrivelmente lúcido sobre estatísticas, aponta que o raciocínio formal depende de
uma declaração inicial de fato seguida de uma declaração sobre o estado atual das
coisas e uma conclusão inferida. Este silogismo ilustra o que quero dizer:
1. Se um homem não tem braços, ele não pode tocar violão.
2. Este homem toca violão.
3. Portanto, este homem tem armas.
O silogismo começa com uma declaração de fato que permite chegar a conclusão final
porque você pode negar que o homem não possui armas (o antecedente) ao negar que
ele não pode tocar violão (o consequente). Uma versão comparável da hipótese nula é:
Se a hipótese nula for correta, essa estatística de teste não pode ocorrer.
Isso é muito bom, exceto que a hipótese nula não está representada dessa maneira
porque está baseada em probabilidades. Em vez disso, deve ser indicado da seguinte
forma: Se a hipótese nula for correta, então esta estatística de teste é altamente
improvável.
Espero que isso pareça completamente ridículo - a conclusão é errada porque Guy
Picciotto toca violão. Isso ilustra uma falácia comum no teste de hipóteses. Para
resumir, então, embora o NHST esteja configurado para testar qual das duas hipóteses
concorrentes (o nulo ou o alternativo) provavelmente estará correto, o processo não é
nada sobre a hipótese nula: nunca é verdade.
Os alunos muitas vezes têm muito medo das estatísticas. Um dia, um homem chamado
Dr. Richard Weeping afirmou ter encontrado uma cura para a ansiedade estatística:
uma poção contendo suor de texugo, uma lágrima de um filho recém-nascido, uma
colher de chá de Guinness, alguma saliva de gato e sorvete. Imagine que 10
pesquisadores fizeram um estudo em que compararam níveis de ansiedade em
estudantes que haviam tomado a poção para aqueles que tomaram uma poção
placebo (água). Se a poção não funcionou, então deve haver uma diferença de zero
entre esses meios grupais (a hipótese nula), mas se funcionar, então aqueles que
tomaram a poção devem ser menos ansiosos do que os que tomam o placebo (que
aparecerá Em uma diferença positiva entre os grupos). Os resultados dos 10 estudos
são mostrados na Figura 2.18 juntamente com o valor p dentro de cada estudo.
Com base no que eu lhe falei sobre o NHST, você deveria ter respondido C: apenas 4
dos 10 estudos têm um resultado "significativo", o que não é uma evidência muito
convincente da poção mágica do Dr Weeping. Agora, você não sabe nada sobre o
NHST, olha os intervalos de confiança e pensa sobre o que sabemos sobre os intervalos
de confiança sobrepostos.
Eu espero que alguns de vocês tenham mudado de idéia para a opção B. Se você ainda
continuar com a opção C, deixe-me tentar convencê-lo de outra forma. Primeiro, 10
dos 10 estudos mostram um efeito positivo da poção (nenhum das médias está abaixo
de zero) e, embora às vezes este efeito positivo nem sempre seja "significativo", é
consistentemente positivo. Os intervalos de confiança se sobrepõem substancialmente
em todos os estudos, sugerindo que todos os estudos têm amostrado a mesma
população. Mais uma vez, isto implica uma grande consistência nos estudos: todos
vomitam os efeitos populacionais de um tamanho similar. Lembre-se que o intervalo
de confiança conterá o valor real da população em 95% das amostras. Observe quanto
dos intervalos de confiança estão acima de zero nos 10 estudos: mesmo nos estudos
para os quais o intervalo de confiança inclui zero (o que implica que o efeito da
população pode ser zero), a maioria da barra é maior que zero. Novamente, isso
sugere evidências muito consistentes de que o valor da população é maior que zero
(ou seja, a poção funciona). Portanto, ao analisar os intervalos de confiança, em vez de
apenas focar o significado, podemos ver a consistência nos dados.
Do que ter resultados conflitantes (o que a abordagem da NHST implicava), nós
realmente temos resultados muito consistentes: em todos os estudos, o efeito da
poção foi positivo e, levando em consideração todos os 10 estudos, há boas razões
para pensar que o efeito populacional é provável seja maior que zero.
Tamanhos de efeitos
Um dos problemas que identificamos com a NHST foi que o significado não nos diz
sobre a importância de um efeito. A solução para esta crítica é medir o tamanho do
efeito que estamos testando de forma padronizada.
Quando medimos o tamanho de um efeito (seja uma manipulação experimental ou a
força de uma relação entre variáveis) é conhecido como tamanho de efeito. O
tamanho do efeito é simplesmente uma medida objetiva e (geralmente) padronizada
da magnitude do efeito observado. O fato de que a medida é padronizada significa que
podemos comparar os tamanhos de efeitos em diferentes estudos que mediram
variáveis diferentes ou usaram diferentes escalas de medida (então, um tamanho de
efeito baseado em velocidade em milissegundos pode ser comparado com um
tamanho de efeito baseado em Taxas cardíacas). Como mencionei anteriormente, a
APA recomenda divulgar esses tamanhos de efeitos, por isso é um hábito que vale a
pena entrar.
Cohen's d
Muitas medidas do tamanho do efeito foram propostas, sendo as mais comuns as de
Cohen's, o coeficiente de correlação de Pearson r (Capítulo 6) e a Relação de
probabilidades (Capítulos 18 e 19). Como veremos ao longo do livro, há outros, mas
esses três são os mais simples de entender. Vamos pensar outra vez em nosso estudo
sobre se o canto te dá um encontro de namoro na Seção 2.6.1.10. Se quisermos
quantificar o efeito entre os grupos de canto e conversação, como podemos fazê-lo?
Uma coisa bastante simples de fazer seria tomar as diferenças entre as médias. O
grupo de conversação teve uma média de 12 minutos (antes que a mulher fugisse), e o
grupo de cantores com média de 10 minutos. Então, o efeito do canto em comparação
com a conversa é 10-12 = -2 minutos. Este é um tamanho de efeito. O canto teve um
efeito prejudicial em quanto tempo a mulher ficou, em -2 minutos. Isso é bastante fácil
de calcular e entender, mas tem dois pequenos inconvenientes.
Primeiro, a diferença em médias será expressa nas unidades de medida para o estudo
particular. Neste exemplo particular, este inconveniente não é realmente um
inconveniente, porque os minutos significam algo para nós: todos nós podemos
imaginar o que mais 2 minutos de tempo com alguém seria. Nós também podemos ter
uma idéia do que 2 minutos com alguém é relativo em relação à quantidade de tempo
que geralmente gastamos conversando com pessoas aleatórias. No entanto, se
tivéssemos medido o que as mulheres pensavam dos homens em vez de quanto tempo
passavam com eles, a interpretação é mais complicada: 2 unidades de "pensamento"
ou "positividade" ou qualquer coisa menos tangível para nós do que 2 minutos de
tempo. O segundo inconveniente é que, embora a diferença entre as médias nos dê
uma indicação do "sinal", não nos fala sobre o "ruído" na medida. Há 2 minutos de
tempo muito ou um pouco relativo ao tempo "normal" de falar com estranhos?
Podemos remediar esses dois problemas da mesma maneira. Vimos anteriormente
neste capítulo que o desvio padrão é uma medida de "erro" ou "ruído" nos dados, e
vimos na Seção 1.6.4 que se dividimos pelo desvio padrão, então o resultado é uma
pontuação expressa no padrão Unidades de desvio (ou seja, um escore z). Portanto, se
dividimos a diferença entre as médias pelo desvio padrão, obtemos uma relação sinal-
ruído, mas também obtemos um valor que é expresso em unidades de desvio padrão
(e pode, portanto, ser comparado em diferentes estudos que usaram diferentes
medidas). O que acabei de descrever é o de Cohen e podemos expressá-lo
formalmente como:
X 1−X 2
d^ = s
10,27−9
d^ = = 0,433
2,93
Este tamanho de efeito significa que se um homem cantou em vez de ter uma
conversa normal, o tempo que a mulher passou com ele foi reduzido em 0,667 desvios
padrão. Isso é um pouco. Cohen (1988, 1992) fez algumas sugestões amplamente
utilizadas sobre o que constitui um efeito grande ou pequeno: d = 0,2 (pequeno), 0,5
(médio) e 0,8 (grande). Para os nossos dados de canto isso significaria que temos um
tamanho de efeito médio a grande. No entanto, como reconheceu Cohen, esses
benchmarks incentivam o tipo de pensamento preguiçoso que estávamos tentando
evitar e ignoramos o contexto do efeito, como os instrumentos de medição e as
normas gerais em uma determinada área de pesquisa. Lenth colocou-o bem quando
ele disse que, quando interpretamos tamanhos de efeitos, não estamos tentando
vender t-shirts: "Eu vou ter o tamanho do efeito de tour Metallica em um meio, por
favor" (Baguley, 2004; Lenth, 2001).
Às vezes, os grupos não têm desvios padrão iguais, e nesses casos, existem duas
opções principais.
Primeiro, o desvio padrão do grupo de controle ou linha de base é frequentemente
usado. Isso faz sentido porque qualquer intervenção ou manipulação experimental
pode ser esperada para mudar não apenas a média, mas também a propagação de
pontuação. Portanto, o desvio padrão do grupo de controle / linha de base será uma
estimativa mais precisa do desvio padrão para a medida que você está usando. Em
nosso estudo de canto, usaríamos o desvio padrão do grupo de conversação porque
normalmente você não iria para alguém e começaria a cantar. Portanto, d
representaria a quantidade de tempo menor que as mulheres passavam com homens
cantores do que homens falantes em relação à variação normal no tempo que as
mulheres passavam com homens estranhos que conversavam com eles. A segunda
opção é agrupar os desvios-padrão dos dois grupos usando (se seus grupos forem
independentes) esta equação:
Em que N é o tamanho da amostra de cada grupo e s é o desvio padrão. Para os dados
de canto, porque os desvios-padrão e os tamanhos de amostra são os mesmos nos
dois grupos, esta estimativa agrupada será a mesma que o desvio padrão (isto é, 3):
Quando os desvios-padrão do grupo são diferentes, esta estimativa agregada pode ser
útil; no entanto, ele muda o significado de d porque agora estamos comparando a
diferença entre as médias contra todo o "ruído" do fundo na medida, não apenas o
ruído que você esperaria encontrar em circunstâncias normais.
Se você fez a auto teste, você deveria ter o mesmo resultado que antes: -0.667. Isso
porque a diferença no tamanho da amostra não afetou as médias ou desvios padrão e,
portanto, não afetará o tamanho do efeito. Por outras coisas, o tamanho dos efeitos
não é afetado pelo tamanho da amostra, ao contrário dos valores p. Portanto, usando
os tamanhos de efeitos, superamos um dos maiores problemas com o NHST. Na
realidade, a situação não é tão simples porque, como qualquer parâmetro, você obterá
melhores estimativas do valor da população em grandes amostras do que pequenas.
Portanto, embora o tamanho da amostra não afete a computação do tamanho do seu
efeito na amostra, isso afeta o quão próximo o tamanho do efeito da amostra
corresponde ao da população (conhecida como precisão).
Quando analisamos os conjuntos de dados nas Figuras 2.16 e 2.17 e seus valores p
correspondentes, concluímos o seguinte:
Figura 2.16: Dois experimentos com meios idênticos e desvios padrão produzem
conclusões completamente opostas ao usar um valor p para interpretá-los (o estudo
com base em 10 pontuações por grupo não foi significativo, mas o estudo com base
em 100 pontuações por grupo foi).
Figura 2.16: Duas experiências com meios idênticos e desvios padrão produzem
conclusões idênticas ao usar um tamanho de efeito para interpretá-las (ambos os
estudos tiveram d = 0.667).
Figura 2.17: Dois meios praticamente idênticos são considerados não muito diferentes,
com base em um tamanho de efeito (d = 0,003, que é pequeno).
Com esses exemplos, espero ter convencido você de que os tamanhos de efeito nos
oferecem algo que é menos enganador do que NHST.
O coeficiente de correlação
Muitos de vocês estarão familiarizados com o coeficiente de correlação de Pearson, r,
como uma medida da força da relação entre duas variáveis (e o cobriremos no
Capítulo 6, se você não estiver). Como tal, é um tamanho de efeito. Pode surpreendê-
lo, porém, que também pode ser usado para quantificar a força de um efeito
experimental. A razão pela qual você pode se surpreender com esta revelação é que os
alunos geralmente são ensinados sobre o coeficiente de correlação no contexto da
pesquisa não experimental. Se você pensar sobre isso, porém, não é realmente
surpreendente: r quantifica a relação entre duas variáveis, então, se uma dessas
variáveis representa uma manipulação experimental e a outra
Representa uma variável de resultado, então r quantifica a relação entre a
manipulação experimental e o resultado. Em outras palavras, quantificar o efeito
experimental. Claro, é um pouco mais complexo do que isso, mas não quero avançar
comigo mesmo, e descobriremos mais sobre r como medida de tamanho de efeito nos
Capítulos 6, 9 e 11.
Como com d, Cohen (1988, 1992) sugeriu alguns "tamanhos de T-shirt" para r:
R = .10 (efeito pequeno): neste caso, o efeito explica 1% da variância total.
R = .30 (efeito médio): o efeito representa 9% da variância total.
R = .50 (efeito grande): o efeito representa 25% da variância.
Vale lembrar que r não é medido em uma escala linear, então um efeito com r = .6 não
é duas vezes maior que um com r = .3. Vale lembrar a minha observação anterior de
que esses tamanhos de efeitos "enlatados" não substituem a avaliação de um
tamanho de efeito no contexto do domínio de pesquisa que está sendo usado. Há
muitas razões para gostar de r como uma medida de tamanho de efeito, uma delas
sendo que é constrangido de situar-se entre 0 (sem efeito) e 1 (um efeito perfeito) .12
No entanto, existem situações nas quais d pode ser favorecido; Por exemplo, quando
os tamanhos dos grupos são muito discrepantes, r pode ser bastante tendencioso em
comparação com d (McGrath & Meyer, 2006).
Meta-análise
Ao longo dos dois primeiros capítulos, fiz alusão a como os cientistas muitas vezes
testam teorias e hipóteses semelhantes. Uma parte importante da ciência é replicar os
resultados, e é raro que um único estudo dê uma resposta definitiva a uma questão
científica. Na Seção 2.6.2.2, analisamos um exemplo de 10 experimentos que todos
exploraram se uma poção reduz a ansiedade estatística em comparação com um
placebo (água). O resumo desses estudos foi mostrado na Figura 2.18. Anteriormente,
concluímos que, com base em valores de p, concluímos que havia resultados
inconsistentes: 4 estudos mostram um efeito significativo da poção e 6 não. No
entanto, com base nos intervalos de confiança, concluiríamos o contrário: os
resultados em todos os estudos eram bastante consistentes e que era provável que o
efeito na população fosse positivo. Também nesta figura, embora você não soubesse o
que eles estavam no
Tempo, são os valores de Cohen's para cada estudo.
Os 10 estudos resumidos na Figura 2.18 têm ds variando de .23 (outras coisas sendo
iguais, pequenas) para .71 (outras coisas sendo iguais, bastante grandes). Todos os
tamanhos de efeito são positivos: nenhum estudo mostrou pior ansiedade após tomar
a poção. Portanto, os tamanhos dos efeitos são muito consistentes: todos os estudos
mostram efeitos positivos e a poção, na pior das hipóteses, teve efeito de cerca de um
quarto do desvio padrão e, na melhor das hipóteses, um efeito de quase três quartos
de um desvio padrão. Nossas conclusões são notavelmente semelhantes ao que
concluímos quando analisamos os intervalos de confiança, ou seja, há uma evidência
consistente de um efeito positivo na população. Não seria bom se pudéssemos usar
esses estudos para obter uma estimativa definitiva do efeito na população? Bem,
podemos, e esse processo é conhecido como meta-análise. Parece difícil, não é? O que
não seria difícil seria resumir esses 10 estudos tomando uma média dos tamanhos de
efeito:
Capítulo 5
O que é um viés?
Vocês estarão todos familiarizados com o termo "viés". Por exemplo, se você já assistiu
a um jogo esportivo, provavelmente terá acusado um árbitro de ser "tendencioso" em
algum momento, ou talvez tenha assistido a um programa de TV como The X Factor e
achou que um dos juízes era "Tendenciosa" em relação aos atos que orientaram.
Nesses contextos, o viés significa que alguém não está avaliando a evidência (por
exemplo, o canto de alguém) de forma objetiva: há outras coisas que afetam suas
conclusões. Da mesma forma, quando analisamos dados, podem haver coisas que nos
levem a conclusões erradas. Um pouco de revisão. Vimos no Capítulo 2 que, tendo
coletado dados, costumamos ajustar um modelo que representa a hipótese que
queremos testar. Este modelo geralmente é um modelo linear, que assume a forma de
equação (2.4). Para lembrá-lo, parece assim:
Portanto, prevemos uma variável de resultado de algum tipo de modelo. Esse modelo
é descrito por uma ou mais variáveis preditoras (os Xs na equação) e parâmetros (o bs
na equação) que nos dizem algo sobre a relação entre o preditor e a variável de
resultado. Finalmente, o modelo não prevê o resultado perfeitamente, então, para
cada observação, haverá algum erro. Quando ajustamos um modelo aos dados,
estimamos os parâmetros e geralmente usamos o método dos mínimos quadrados
(Seção 2.4.3). Nós não estamos interessados em nossa amostra, tanto quanto uma
população mais geral a que não temos acesso, então usamos os dados da amostra
para estimar o valor dos parâmetros na população (é por isso que os chamamos de
estimativas e não de valores). Quando estimamos um parâmetro, também calculamos
uma estimativa de como ele representa a população, como um erro padrão (Seção
2.5.1) ou intervalo de confiança (Seção 2.5.2). Também podemos testar hipóteses
sobre esses parâmetros ao computar as estatísticas de teste e suas probabilidades
associadas (p-values, seção 2.6.1). Portanto, quando pensamos sobre o viés,
precisamos pensar sobre isso em três contextos:
1. coisas que propagam as estimativas dos parâmetros (incluindo tamanhos de efeito);
2. coisas que comparam erros padrão e intervalos de confiança;
3. coisas que comparam estatísticas de teste e valores de p.
Premissas/Suposições
A maioria de nossas fontes potenciais de viés vem sob a forma de violações de
pressupostos, e muitas vezes você ouve ou lê sobre "suposições" de testes estatísticos.
Uma suposição é uma condição que garante que o que você está tentando fazer
funciona. Por exemplo, quando avaliamos um modelo usando uma estatística de teste,
geralmente fazemos algumas suposições e, se essas premissas são verdadeiras,
sabemos que podemos levar a estatística de teste (e, portanto, valor de p) associada a
um modelo em Valor de face e interprete-o de acordo. Por outro lado, se alguma das
premissas não for verdadeira (geralmente referida como uma violação), a estatística
de teste e o valor de p serão imprecisos e podem levar-nos a uma conclusão errada se
os interpretarmos ao valor nominal.
1. Aditividade e linearidade;
2. Normalidade de alguma coisa;
3. Homoscedasticidade / homogeneidade de variância;
4. Independência.
Outliers
O exemplo ilustra que outliers pode enviesar uma estimativa de parâmetro, mas tem
uma influência ainda maior sobre o erro associado a essa estimativa. De volta à Seção
2.4.1, analisamos o exemplo do número de amigos que tinham 5 professores de
estatística. Os dados foram 1, 3, 4, 3, 2, a média foi de 2,6 e a soma do erro quadrado
foi de 5,2. Vamos substituir uma das pontuações por um outlier mudando o 4 para um
10. Os dados são agora: 1, 3, 10, 3 e 2.
Esse pressuposto é o mais importante porque, se não for verdade, mesmo que todos
os outros pressupostos sejam atendidos, seu modelo é inválido porque você o
descreveu incorretamente. É um pouco como chamar seu gato de estimação de
cachorro: você pode tentar levá-lo para ir no canil, ou fazê-lo pegar um pedaço de pau,
ou pedir para sentar-se quando você diz “senta”, mas não se surpreenda quando seu
comportamento não é o que você espera porque, apesar de ter chamado um cachorro,
é de fato um gato. Da mesma forma, se você descreveu seu modelo estatístico
incorretamente, ele não se comportará e não basta interpretar suas estimativas de
parâmetros ou se preocupar com testes de significância de intervalos de confiança: o
modelo está errado.
Erros: vimos que qualquer modelo que combinamos incluirá algum erro (não vai
prever perfeitamente a variável de resultados). Também vimos que poderíamos
calcular o erro para cada caso de dados (chamado de desvio ou residual). Se esses
resíduos são normalmente distribuídos na população, usando o método de mínimos
quadrados para estimar os parâmetros (o bs na equação (2.4)) produzirá melhor
estimativas do que outros métodos.
A suposição de normalidade
Muitas pessoas tomam a "suposição de normalidade" para significar que seus dados
precisam ser normalmente distribuídos. No entanto, não é isso que isso significa. Na
verdade, há muita confusão sobre o que isso significa. Acabamos de analisar as formas
em que a normalidade pode introduzir viés, e esta lista sugere que a "suposição de
normalidade" pode significar coisas diferentes em diferentes contextos:
O equívoco que muitas vezes as pessoas têm sobre os dados que precisam ser
normalmente distribuídos provavelmente decorre do fato de que, se os dados forem
normalmente distribuídos, é razoável supor que os erros no modelo e a distribuição de
amostragem também são (e lembre-se, nós don "Tenho acesso direto à distribuição de
amostragem, então devemos fazer suposições educadas sobre sua forma). Portanto, a
suposição de normalidade tende a ser traduzida como "seus dados precisam ser
normalmente distribuídos", embora isso não seja realmente o que isso significa (veja
Jane Superbrain Box 5.1 para mais informações).
O teorema do limite central significa que existem várias situações em que podemos
assumir a normalidade, independentemente da forma de nossos dados de amostra
(Lumley, Diehr, Emerson e Chen, 2002). Vamos pensar sobre as coisas afetadas pela
normalidade:
O segundo pressuposto que exploraremos diz respeito à variação (Seção 1.6.3), que
podem afetar as duas principais coisas que podemos fazer quando ajustamos modelos
de dados:
1. Parâmetros: se usarmos o método dos mínimos quadrados (Seção 2.4.3) para estimar
os parâmetros no modelo, isso nos dará estimativas ótimas se a variância da variável
de resultado for igual em diferentes valores da variável preditora.
2. Teste de significância de hipóteses nulas (NHST): as estatísticas de teste geralmente
assumem que a variância da variável de resultado é igual em diferentes valores da
variável preditor. Se este não for o caso, essas estatísticas de teste serão imprecisas.
Portanto, para garantir que nossas estimativas dos parâmetros que definem nosso modelo e
testes de significância sejam precisas, devemos assumir a homoscedasticidade (também
conhecida como homogeneidade de variância).
Em projetos em que você teste vários grupos de participantes, essa suposição significa que
cada uma dessas amostras vem de populações com a mesma variância. Nos conceitos
correlacionais, essa suposição significa que a variância da variável de resultado deve ser
estável em todos os níveis da variável preditor. Em outras palavras, à medida que você passa
por níveis da variável preditor, a variância da variável de resultado não deve mudar. Vamos
ilustrar esta ideia com um exemplo. Um audiologista estava interessado nos efeitos de
concertos altos na audiência das pessoas. Ela enviou 10 pessoas em turnê com a banda mais
alta que ela conseguiu, Motörhead. Essas pessoas foram a concertos em Brixton (Londres),
Brighton, Bristol, Edimburgo, Newcastle, Cardiff e Dublin, e o audiologista mediu por quantas
horas após o show que essas pessoas estavam com os ouvidos zumbindo.
O topo da Figura 5.7 mostra o número de horas que cada pessoa (representada por um círculo)
ficou com zumbido em seus ouvidos após cada show. Os quadrados mostram o número médio
de horas de zumbido nos ouvidos após cada show. Uma linha conecta essas médias para que
possamos ver a tendência geral. Para cada concerto, os círculos são os escores a partir dos
quais a média é calculada. Podemos ver em ambos os gráficos que as médias aumentam à
medida que as pessoas vão para mais concertos: há um efeito cumulativo dos concertos ao
tocar nos ouvidos. Os gráficos não diferem em relação as médias (que são aproximadamente
as mesmas), mas diferem na disseminação dos escores em torno da média. A parte inferior da
Figura 5.7 remove os dados e o substitui por uma barra que mostra o alcance das pontuações
exibidas na figura superior. Nos gráficos da esquerda, as barras verdes são aproximadamente o
mesmo comprimento, o que nos diz que a propagação de pontuações em torno da média era
aproximadamente a mesma em cada show. Isto é o que queremos dizer por homogeneidade
de variância ou Homoscedasticidade: a disseminação de pontuação para perda de audição é a
mesma em cada nível da variável de concerto (ou seja, a propagação de pontuação é a mesma
em Brixton, Brighton, Bristol, Edimburgo, Newcastle, Cardiff e Dublin). O lado direito da Figura
5.7 mostra um cenário diferente: as pontuações após o concerto de Brixton (que são exibidas
de novo pelas linhas verdes na parte inferior da figura) são bem embaladas em torno da média
(a distância vertical da menor pontuação para o maior resultado é pequena), mas depois do
show de Dublin (por exemplo), as pontuações estão muito espalhadas em torno da média (a
distância vertical da nota mais baixa para a pontuação mais alta é grande). Em geral, as barras
verdes à direita diferem em comprimento, mostrando que a propagação de pontuação foi
diferente em cada show. Este cenário é um exemplo de heterogeneidade de variância ou
heterocedasticidade: em alguns níveis da variável de concerto, a variância dos escores é
diferente de outros níveis (graficamente, a distância vertical do menor para o mais alto é
diferente após diferentes concertos).
Quando a homoscedasticidade / homogeneidade da variância é importante?
Independência
Esta suposição significa que os erros no seu modelo (o erro na equação (2.4)) não estão
relacionados entre si. Imagine que Paul e Julie foram participantes de um experimento onde
eles tiveram que indicar se eles se lembravam de ter visto fotos particulares. Se Paul e Julie
tivessem a oportunidade de falar sobre se tinham visto certas fotos, suas respostas não seriam
independentes: a resposta de Julie a uma dada questão dependeria da resposta de Paulo. Nós
já sabemos que, se estimarmos um modelo para prever suas respostas, haverá erro nessas
previsões e porque as pontuações de Paul e Julie não são independentes, os erros associados a
esses valores previstos também não serão independentes. Se Paulo e Julie não conseguissem
conferir (se estivessem bloqueados em salas diferentes), os termos de erro deveriam ser
independentes (a menos que sejam telepáticos): o erro na previsão da resposta de Paulo não
deve ser influenciado pelo erro na previsão da resposta de Julie. A equação que usamos para
estimar o erro padrão (equação (2.8)) é válida somente se as observações forem
independentes. Lembre-se de que usamos o erro padrão para calcular intervalos de confiança
e testes de significância, então, se violarmos a suposição de independência, nossos intervalos
de confiança e testes de significância serão inválidos. Se usarmos o método dos mínimos
quadrados, as estimativas dos parâmetros do modelo ainda serão válidas, mas não ótimas
(poderíamos obter melhores estimativas usando um método diferente). Em geral, se esta
suposição for violada, devemos aplicar as técnicas abordadas no Capítulo 20, por isso é
importante identificar se a suposição é violada.
Spotting outliers
Quando eles estão isolados, casos extremos e outliers são bastante fáceis de detectar usando
gráficos, como histogramas e quadros; é consideravelmente mais complicado quando os
outliers são mais sutis (o uso de pontuação z pode ser útil). Vejamos um exemplo. Um biólogo
estava preocupado com os potenciais efeitos na saúde dos festivais de música. Ela foi ao
Download Music Festival (aqueles de vocês fora do Reino Unido podem fingir que é Roskilde
Festival, Ozzfest, Lollopalooza, Wacken ou algo assim) e mediram a higiene dos 810
espectadores nos três dias do festival. Ela tentou medir cada pessoa em todos os dias, mas,
porque era difícil rastrear as pessoas, faltava dados nos dias 2 e 3. A higiene foi medida usando
uma técnica padronizada (não se preocupe, não lambendo axila da pessoa) que resulta em
uma pontuação que varia entre 0 (você cheira como um cadáver que foi deixado para
apodrecer a bunda de uma cadela) e 4 (você cheira as rosas doces em um dia de primavera).
Eu sei, por uma experiência amarga, que o saneamento nem sempre é ótimo nesses lugares (o
Festival de Leitura parece particularmente ruim) e, portanto, o biólogo previu que a higiene
pessoal desceria drasticamente nos três dias do festival. Os dados podem ser encontrados no
DownloadFestival.sav.
As distribuições de frequência não são apenas boas para detectar outliers; eles são a escolha
natural para olhar a forma da distribuição como um todo. Nós já planejamos um histograma
das pontuações do dia 1 (Figura 5.10). O gráfico P-P (trama probabilidade-probabilidade) é
outro gráfico útil para verificar a normalidade; ele traça a probabilidade cumulativa de uma
variável contra a probabilidade cumulativa de uma distribuição particular (neste caso,
especificamos uma distribuição normal). Os dados são classificados e classificados, então, para
cada classificação, o z-score correspondente é calculado para criar um "valor esperado" que a
pontuação deve ter em uma distribuição normal. Em seguida, o próprio resultado é convertido
em z-score (ver Seção 1.6.4). O escore Z real é plotado em relação ao escore Z esperado. Se os
dados forem normalmente distribuídos, o escore z real será o mesmo que o z-score esperado e
você terá uma linda linha diagonal direta. Este cenário ideal é utilmente plotado no gráfico e
seu trabalho é comparar os pontos de dados com esta linha. Se os valores se enquadram na
diagonal do gráfico, então a variável é normalmente distribuída; no entanto, quando o índice
cai de forma consistente acima ou abaixo da diagonal, então isso mostra que a curtose difere
de uma distribuição normal, e quando os pontos de dados são em forma de S, o problema é
um esqueleto.
Usando números para detectar a normalidade
A caixa de diálogo Estatísticas permite que você selecione formas de descrever uma
distribuição, como medidas de tendência central (média, modo, mediana), medidas de
variabilidade (alcance, desvio padrão, variância, divisão de quartil), medidas de forma (kurtosis
e skewness ). Selecione a média, modo, mediana, desvio padrão, variância e alcance. Para
verificar que uma distribuição de pontuação é normal, podemos observar os valores de
kurtosis e skewness (ver Seção 1.6.1). A opção Gráficos fornece uma maneira simples de traçar
a distribuição de frequência das pontuações (como um gráfico de barras, um gráfico de pizza
ou um histograma). Já planejamos histogramas de nossos dados, por isso não precisamos
selecionar essas opções, mas você poderia usar essas opções em análises futuras. Quando
você selecionou as opções apropriadas, volte para a caixa de diálogo principal clicando em.
Uma vez na caixa de diálogo principal, clique em para executar a análise.
A saída 5.2 mostra a tabela de estatísticas descritivas para as três variáveis neste exemplo. Em
média, os escores de higiene foram 1,77 (5) no dia 1 do festival, mas desceram para 0,96 e
0,98 nos dias 2 e 3, respectivamente. As outras medidas importantes para nossos propósitos
são a aspereza e a curtose (ver Seção 1.6.1), ambas com um erro padrão associado.
Existem diferentes maneiras de calcular a inclinação e a curtose, mas SPSS usa métodos que
dão valores de zero em uma distribuição normal. Os valores positivos de inclinação indicam
uma acumulação de pontuação à esquerda da distribuição, enquanto os valores negativos
indicam uma acumulação à direita. Os valores positivos da curtose indicam uma distribuição
pontiaguda e pesada, enquanto os valores negativos indicam uma distribuição plana e leve.
Quanto mais o valor for de zero, mais provável é que os dados normalmente não sejam
distribuídos. Para o dia 1, o valor de inclinação é muito próximo de zero (o que é bom) e a
Kurtosis é um pouco negativo. Para os dias 2 e 3, no entanto, há uma aspereza de cerca de 1
(inclinação positiva).
Podemos converter esses valores em pontuações z (Seção 1.6.4), o que nos permite (1)
comparar os valores de distorção e curtose em diferentes amostras que usaram medidas
diferentes e (2) calcular um valor p que nos diz se os valores são significativamente diferentes
de 0 (isto é, normal). Embora haja boas razões para não fazer isso, se você quiser, pode fazê-lo
subtraindo a média da distribuição (neste caso zero) da pontuação e, em seguida, dividindo-se
pelo erro padrão da distribuição.
S−0 K−0
z skewness = z kurtosis=
SE skewness SE kurtosis
Nas equações acima, os valores de S (skewness) e K (kurtosis) e seus respectivos erros padrão
são produzidos pelo SPSS. Esses escores z podem ser comparados com os valores que você
esperaria obter se a inclinação e a curtose não fossem diferentes de 0 (ver Seção 1.6.4). Assim,
um valor absoluto superior a 1,96 é significativo em p <0,05, acima de 2,58 é significativo em p
<0,01 e acima 3,29 é significativo em p <0,001. No entanto, você realmente deve usar esses
critérios somente em pequenas amostras: em amostras maiores examina a forma da
distribuição visualmente, interpreta o valor das estatísticas de skewness e kurtosis e
possivelmente nem se preocupa com a normalidade (Jane Superbrain Box 5.5 ).
Para os escores de higiene, o escore z da skewness é -0.004 / 0.086 = 0.047 no dia 1, 1.095 /
0.150 = 7.300 no dia 2 e 1.033 / 0.218 = 4.739 no dia 3. É bastante claro então, embora no dia
1 as pontuações não são dobradas, nos dias 2 e 3 existe uma inclinação positiva muito
significativa (como ficou evidente com o histograma). Os escores z da curtose são: -0,410 /
0,172 = -2,38 no dia 1, 0,822 / 0,299 = 2,75 no dia 2 e 0,732 / 0,433 = 1,69 no dia 3. Estes
valores indicam problemas significativos com inclinação, curtose ou ambos (em p <.05)
durante os três dias; no entanto, por causa da grande amostra, isso não é surpreendente e,
assim, podemos consolar o teorema do limite central.
SPSS produzirá uma tabela de estatística descritiva (média, etc.) que deve ter os mesmos
valores que as tabelas obtidas usando o procedimento de frequências. A tabela importante é a
do teste K-S (saída 5.3). Esta tabela inclui a própria estatística de teste, os graus de liberdade
(que devem ser iguais ao tamanho da amostra) e o valor de significância deste teste. Lembre-
se de que um valor significativo (Sig. Menor de .05) indica um desvio da normalidade. Para o
dia 1, o teste K-S é quase não significante (p = .097), o que é surpreendentemente próximo de
significante, conforme a pontuação normal do dia 1 no histograma (Figura 5.13). No entanto, o
tamanho da amostra no dia 1 é muito grande (N = 810) e o significado do teste KS para esses
dados mostra como em grandes amostras, mesmo os desvios pequenos e sem importância da
normalidade podem ser considerados significativos por este teste (Jane Superbrain Box 5.5 ).
Para os dias 2 e 3, o teste é altamente significativo, indicando que essas distribuições não são
normais, o que provavelmente refletirá a inclinação observada nos histogramas para esses
dados (Figura 5.13).
A estatística de teste para o teste K-S é indicada por D, e devemos relatar os graus de liberdade
(df) da tabela entre parênteses após o D. Podemos relatar os resultados na Saída 5.3 da
seguinte maneira:
Vimos anteriormente que, quando as variáveis preditoras são formadas por categorias, se você
decidir que você precisa verificar a suposição de normalidade, então você precisa fazê-lo
dentro de cada grupo separadamente (Jane Superbrain Box 5.1). Por exemplo, para os escores
de higiene, temos dados para homens e mulheres (na variável Sexo). Se fizemos alguma
previsão sobre a existência de diferenças de higiene entre homens e mulheres em um festival
de música, então devemos observar a normalidade em homens e mulheres separadamente.
Existem várias maneiras de produzir estatísticas descritivas básicas para grupos separados.
Primeiro, vou apresentá-lo à função de arquivo dividido. Esta função permite que você
especifique uma variável de agrupamento (lembre-se, essas variáveis são usadas para
especificar categorias de casos). Qualquer procedimento subsequente no SPSS é então
realizado em cada categoria de casos separadamente.
Se quisermos obter estatísticas descritivas separadas para homens e mulheres em nossos
resultados de higiene do festival, podemos dividir o arquivo e, em seguida, proceder usando o
comando de frequências descrito na seção anterior. Para dividir o arquivo, selecione ou clique
em Data Split file. Na caixa de diálogo resultante (Figura 5.17) selecione a opção organizar
saída por grupos. Uma vez que esta opção é selecionada, a caixa Grupos Baseados será
ativada. Selecione a variável que contém os códigos de grupo pelo qual você deseja repetir a
análise (neste exemplo selecione Sexo) e arraste-a para a caixa ou clique em Por padrão, o
SPSS classificará o arquivo por esses grupos (ou seja, listará um Categoria seguida pelo outro
no editor de dados). Depois de dividir o arquivo, use o comando de frequências (veja a seção
anterior). Vamos solicitar estatísticas para todos os três dias, como na Figura 5.14.
A saída 5.4 mostra os resultados, que foram divididos em duas tabelas: os resultados para os
homens e os resultados para as mulheres. Os homens marcaram menores que as fêmeas nos
três dias do festival (ou seja, estavam cheirosos). Os valores de distorção e curtose são
semelhantes aos do sexo masculino e feminino nos dias 2 e 3, mas diferem um pouco no dia 1:
como já indicado, os machos mostram uma inclinação positiva muito pequena (0,200), mas
para as fêmeas a inclinação é ligeiramente negativa (- 0,176). Em ambos os casos, a inclinação
no dia 1 é muito pequena. A Figura 5.18 mostra os histogramas dos escores de higiene
divididos de acordo com o gênero do festival. As pontuações masculinas e femininas têm
distribuições similares. No dia 1, eles são bastante normais (embora as fêmeas talvez
demonstrem uma inclinação negativa muito ligeira, o que indica que uma maior proporção
deles estava Maior ponta de higiene do que os machos). Nos dias 2 e 3, os machos e as fêmeas
mostram a inclinação positiva característica que vimos na amostra como um todo. Parece que
proporcionalmente mais fêmeas estão na extremidade distorcida da distribuição (ou seja, na
extremidade higiênica).
(Figura 5.16); Porque o comando do arquivo dividido está ligado, nós obteríamos o teste K-S
realizado em machos e fêmeas separadamente. Um método alternativo é dividir a análise por
grupo dentro do próprio comando explorar. Primeiro, desligue o arquivo dividido, clicando em
(ou clique em) para ativar a caixa de diálogo na Figura 5.17. Selecione Analisar todos os casos,
não crie grupos e clique em. A função de arquivo dividido está desativada e as análises serão
realizadas nos dados como um todo. Em seguida, ative o comando explorar como fizemos
antes:. Podemos solicitar testes separados para machos e fêmeas, colocando o gênero na caixa
denominada Lista de Fatos como na Figura 5.21 e selecionando as mesmas opções como
descrito anteriormente. Vamos fazer isso para os resultados de higiene do dia 1. Você deve ver
a tabela na Saída 5.5, o que mostra que a distribuição dos índices de higiene era normal para
os homens (o valor de Sig. É maior que 0,05), mas não para as fêmeas (o valor de Sig. É menor
que 0,05).
SPSS também produz um gráfico Q-Q normal (veja a Figura 5.19). Apesar de o KS ter resultados
completamente diferentes para machos e fêmeas, as parcelas de QQ são notavelmente
similares: não há sinal de um grande problema com a curtose (os pontos não se inclinam
especialmente acima ou abaixo da linha) e há alguma ligeira inclinação (o O gráfico feminino
em particular tem uma ligeira forma de S). No entanto, ambos os gráficos mostram que os
quantiles são muito próximos da linha diagonal, o que, não esqueçamos, representa uma
distribuição normal perfeita. Para as fêmeas, o gráfico está em desacordo com o teste K-S
significativo, e isso ilustra o meu ponto anterior de que, se você tiver uma amostra grande,
testes como o K-S o levarão a concluir que mesmo desvios muito menores da normalidade são
"significativos"...
A Figura 5.20 mostra vários exemplos do enredo de resíduos padronizados contra valores
preditos padronizados. O painel superior esquerdo mostra uma situação em que os
pressupostos de linearidade e homocedasticidade foram atendidos. O painel superior direito
mostra um gráfico similar para um conjunto de dados que viole a suposição de
homoscedasticidade. Observe que os pontos formam um funil: eles se tornam mais espalhados
pelo gráfico. Essa forma de funil é típica da heteroscedasticidade e indica variação crescente
em todos os resíduos. O painel inferior esquerdo mostra um gráfico de alguns dados em que
há uma relação não-linear entre o resultado eo preditor: há uma curva clara nos resíduos.
Finalmente, o painel inferior direito ilustra dados que não só têm uma relação não-linear, mas
também mostram heteroscedasticidade. Observe, em primeiro lugar, a tendência curva dos
resíduos e, em seguida, observe que, em uma extremidade do enredo, os pontos são muito
próximos, enquanto que no outro lado estão amplamente dispersos. Quando esses
pressupostos foram violados, você não verá esses padrões exatos, mas espero que essas
parcelas o ajudem a entender as anomalias gerais que você deve procurar. Examinaremos um
exemplo de como esse gráfico é usado no Capítulo 8, mas, por enquanto, apenas esteja ciente
dos padrões a serem observados.
Podemos obter o teste de Levene usando o menu Explorar que usamos na seção anterior.
Cumprindo os escores de higiene, compararemos as variações entre machos e fêmeas no dia 1
do festival. Use para abrir a caixa de diálogo na Figura 5.21. Transfira a variável day1 da lista do
lado esquerdo para a caixa denominada Lista Dependente, clicando no próximo a esta caixa;
Porque queremos dividir o resultado pela variável de agrupamento para comparar as
variâncias, selecione a variável Gênero e transfira-a para a caixa denominada Fator, clicando
no apropriado. Em seguida, clique em para abrir a outra caixa de diálogo na Figura 5.21. Para
obter o teste de Levene, precisamos selecionar uma das opções em que diz Spread vs. level
with Levene test. Se você selecionar, o teste de Levene é realizado nos dados brutos (um bom
local para começar). Quando você terminar com esta caixa de diálogo, clique em para retornar
à caixa de diálogo Explorer principal e clique em para executar a análise.
A saída 5.6 mostra a tabela para o teste de Levene. O teste pode ser baseado em diferenças
entre os escores e a média, e entre os escores e a mediana. A mediana é ligeiramente
preferível (porque é menos tendenciosa por outliers). Ao usar a média (p = 0,30) e a mediana
(p = 0,037), os valores de significância são inferiores a 0,05, indicando uma diferença
significativa entre as variâncias masculina e feminina. Para calcular a razão de variância,
precisamos dividir a maior variação pelo menor. Você deve encontrar as variações na sua
saída, mas, caso contrário, obtivemos esses valores na Saída 5.4. A variância masculina foi de
0,413 e a do sexo feminino 0,496; A razão de variância é, portanto, 0,496 / 0,413 = 1,2.
Essencialmente, as variações são praticamente iguais. Então, por que o teste de Levene nos diz
que eles são significativamente diferentes? A resposta é porque o tamanho da amostra é tão
grande: nós possuímos 315 machos e 495 fêmeas, de modo que mesmo esta pequena
diferença nas variâncias é mostrada como significativa pelo teste de Levene (Jane Superbrain
Box 5.5). Esperemos que este exemplo convence você a tratar estes testes cautelosamente.
O teste de Levene pode ser denotado pela letra F e existem dois graus de liberdade diferentes.
Como tal, você pode denunciá-lo, em forma geral, como F (df1, df2) = valor, p = p-valor. Assim,
para os resultados na Saída 5.6, poderíamos dizer: Para as notas de higiene no dia 1 do festival,
as variações foram desiguais para homens e mulheres, F (1, 808) = 4,74, p = 0,03.
Provavelmente, a melhor dessas opções é usar testes robustos, que é um termo aplicado a
uma família de procedimentos para estimar estatísticas confiáveis mesmo quando as
premissas normais da estatística não são atendidas (Seção 5.4.3). Vejamos cada técnica com
mais detalhes.
Recortar os dados
Recortar os dados significa excluir algumas pontuações dos extremos, e é preciso muitas
formas. Na sua forma mais simples, poderia ser excluir os dados da pessoa que contribuiu com
o outlier. No entanto, isso deve ser feito somente se você tiver uma boa razão para acreditar
que este caso não é da população que você pretende provar. Por exemplo, se você estivesse
investigando fatores que afetaram a quantidade de gatos ronronados e um gato não ronronou,
isso provavelmente seria um outlier (todos os gatos ronronam). Após a inspeção, se você
descobriu que esse gato era realmente um cachorro vestindo um traje de gato (daí por que
não purrou), então você teria motivos para excluir este caso, porque ele vem de uma
população diferente (cães que gostam de se vestir Como gatos) do que sua população-alvo
(gatos). Mais frequentemente, cortar envolve a remoção de pontuações extremas usando uma
das duas regras: (1) uma regra baseada em porcentagem; E (2) uma regra baseada em desvio
padrão. Uma regra baseada em porcentagem seria, por exemplo, excluir os 10% dos índices
mais altos e mais baixos. Vejamos um exemplo. Meston e Frohlich (2003) relatam um estudo
mostrando que pessoas heterossexuais classificam uma foto de alguém do sexo oposto como
mais Atraente depois de montar uma montanha-russa em comparação com antes. Imagine
que levamos 20 pessoas quando saíram da montanha-russa Rockit em Universal Studios em
Orlando9 e pediram-lhes para avaliar a atratividade de alguém em uma fotografia em uma
escala de 0 (parece Jabba the Hutt) a 10 (meus olhos têm Apenas explodiram porque não
foram projetados para contemplar tal beleza). A Figura 5.22 mostra essas pontuações. Como
você pode ver, a maioria das pessoas deu avaliações acima do ponto médio da escala: eles
eram bastante positivos em suas classificações. No entanto, havia duas pessoas que deram
zeros. Se nós cortássemos 5% dos dados de cada extremidade, isso significaria excluir uma
pontuação em cada extremo (há 20 pontuações e 5% de 20 é 1). A Figura 5.22 mostra que isso
envolve a exclusão de um 0 e um 8. Podemos calcular um meio cortado a 5% trabalhando a
média para este conjunto de dados aparados. Da mesma forma, a Figura 5.22 mostra que com
20 pontuações, um ajuste de 10% significaria eliminar duas pontuações de cada extremo, e
uma guarnição de 20% implicaria a exclusão de quatro pontuações de cada extremo. Se você
tomar o corte até o extremo, então você obtém a mediana, que é o valor que resta quando
você cortou tudo, exceto a pontuação intermediária. Se calculamos a média em uma amostra
que foi cortada dessa maneira, é chamado (sem surpresa) de uma média aparada. Uma
medida robusta similar de localização é o M-estimator, que difere de uma média aparada em
que a quantidade de aparar é determinada empiricamente. Em outras palavras, em vez de o
pesquisador decidir antes da análise quanto dos dados cortar, um estimador M determina a
quantidade ideal de aparagem necessária para dar uma estimativa robusta de, digamos, a
média. Isto tem a vantagem óbvia de que você nunca excede ou desconstrói seus dados. No
entanto, a desvantagem é que nem sempre é possível alcançar uma solução.
Se você fizer a auto teste, deve achar que a classificação média foi de 6 com uma variância de
5,37. A média aparada de 5% é de 6,22, a média de 10% cortada é de 6,50 e a média de 20%
reduzida é de 6,58. As médias ficam mais elevados neste caso porque o corte é reduzir o
impacto de poucos escores que eram muito pequenos (o par de gits miseráveis que deram
classificações de 0). O que acontece com as variações? Para a amostra geral é de 5,37, mas
para os dados de 5%, 10% e 20% recortados, você obtém 3,59, 1,20 e 0,45, respectivamente.
As variações ficam menores (e mais estáveis) porque, novamente, os valores abertos têm
menos impacto. Vimos anteriormente que a precisão da média e variância depende de uma
distribuição simétrica, mas uma média aparada (e variância) será relativamente precisa mesmo
quando a distribuição não é simétrica, porque ao cortar as extremidades da distribuição,
removemos outliers e distorção Que prejudicam a média. Alguns métodos robustos funcionam
aproveitando as propriedades da média aparada. As regras baseadas no desvio padrão
envolvem o cálculo da média e o desvio padrão de um conjunto de pontuações e, em seguida,
a remoção de valores que são um certo número de desvios padrão maiores do que a média.
Por exemplo, ao analisar os dados do tempo de reação (que é notoriamente bagunçado), é
muito comum remover quaisquer tempos de reação superiores (ou abaixo) a 2,5 desvios
padrão acima da média (Ratcliff, 1993). Para os dados da montanha-russa, o desvio padrão é
2,32, então 2,5 vezes o desvio padrão é de 5,8. A média era 6, portanto, eliminávamos
pontuações superiores a 6 + 5,8 = 11,8, das quais não havia nenhuma (era apenas uma escala
de 10 pontos); Também eliminamos as pontuações inferiores a 6 - 5,8 = 0,2, o que significa
eliminar as duas pontuações de zero porque são as únicas pontuações inferiores a 0,2. Se
recalcularmos a média, excluindo esses dois zeros, obtemos 6,67 e uma variância de 1,29.
Novamente, você pode ver que esse método reduz o impacto de pontuações extremas. No
entanto, existe um problema fundamental com o corte baseado em desvio padrão, que é que
a média eo desvio padrão são ambos altamente influenciados por outliers (ver Seção 5.2.2);
Portanto, se você tiver outliers nos dados, o critério que você usa para reduzir seu impacto já
foi tendencioso por eles. Quando se trata de implementar esses métodos no SPSS, não há uma
maneira simples de fazê-lo. Apesar de o SPSS calcular uma média reduzida de 5% para você, se
você usar o comando explore (Figura 5.16), não removerá os casos reais do conjunto de dados,
de modo a fazer testes com base em uma amostra cortada que você precisaria cortar
manualmente Os dados (ou fazê-lo usando comandos de sintaxe) ou use o comando select
cases (veja a Lanterna de Oditi).
Winsorizing
A obtenção dos dados envolve a substituição de outliers com a próxima pontuação mais alta
que não é um outlier. É perfeitamente natural sentir-se desconfortável com a idéia de mudar
os resultados que você coletou para valores diferentes. Parece um pouco de trapaça. No
entanto, você precisa ter em mente que, se a pontuação que você está mudando é muito
pouco representativa da amostra como um todo e prejudica seu modelo estatístico, então não
é trapaça; Está melhorando sua precisão.10 O que é trapaça não é lidar com casos extremos
que prejudicam os resultados em favor de sua hipótese, ou alteram os índices de forma
sistemática além de reduzir o viés (novamente, talvez para apoiar sua hipótese). Existem
algumas variações sutis na vitoria, como a substituição de pontuações extremas por uma
pontuação 3 desvios padrão da média. Um escore z de 3,29 constitui um outlier (ver 5.3.1)
para que possamos calcular qual pontuação daria origem a uma pontuação z de 3.29 (ou talvez
3) reorganizando a equação z-score, o que nos dá X = ( Z × s) +. Tudo o que estamos fazendo é
calcular o (s) desvio (s) padrão (s) dos dados e, sabendo que z é 3 (ou 3.29 se você deseja ser
exato), adicionando três vezes o desvio padrão para a média e substituindo nosso Outliers com
essa pontuação. Tal como acontece com o corte, isso é algo que você precisa fazer
manualmente no SPSS ou use o comando select cases (veja a Lanterna de Oditi).
Métodos robustos
De longe, a melhor opção se você tiver dados irritantes (além de colar uma grande espada de
samurai através da sua cabeça) é usar um teste robusto para violações de pressupostos e
valores atípicos. Em outras palavras, testes que são relativamente pouco afetados por dados
irritantes. O primeiro conjunto de testes são aqueles que não dependem da assunção de dados
normalmente distribuídos (ver Capítulo 6) .11 Uma coisa que você descobrirá rapidamente
sobre testes não-paramétricos é que eles foram desenvolvidos apenas por um alcance
bastante limitado Situações. Então, dias felizes, se você quiser comparar dois meios, mas dias
tristes e solitários, ouvindo Joy Division se você tiver um projeto experimental complexo.
Uma abordagem muito mais promissora é usar métodos robustos, que mencionei
anteriormente. Esses testes se desenvolveram à medida que os computadores ficaram mais
sofisticados (fazer esses testes sem computadores seria apenas menos doloroso do que rasgar
sua pele e mergulhar em um banho de sal). Como esses testes funcionam está além do escopo
deste livro (e meu cérebro), mas dois conceitos simples lhe darão a idéia geral. O primeiro que
já examinamos: medidas robustas do centro da distribuição, como a média aparada e os
estimadores M. O segundo é o bootstrap (Efron & Tibshirani, 1993), que é uma idéia muito
simples e elegante. O problema que temos é que não conhecemos a forma da distribuição de
amostragem, mas a normalidade em nossos dados nos permite inferir que a distribuição da
amostragem é normal (e, portanto, podemos saber a probabilidade de ocorrência de uma
estatística de teste em particular). A falta de normalidade nos impede de conhecer a forma da
distribuição de amostragem, a menos que tenhamos grandes amostras. O Bootstrapping
contorna esse problema estimando as propriedades da distribuição de amostragem a partir
dos dados da amostra. A Figura 5.23 ilustra o processo: de fato, os dados da amostra são
tratados como uma população a partir da qual são colhidas amostras menores (chamadas
amostras de bootstrap) (colocando cada pontuação de volta antes de uma nova ser extraída da
amostra). O parâmetro de interesse (por exemplo, a média) é calculado em cada amostra de
bootstrap. Este processo é repetido talvez 2000 vezes. O resultado final é que temos
estimativas de parâmetros de 2000, uma em cada amostra de bootstrap. Há duas coisas que
podemos fazer com essas estimativas: a primeira é ordená-las e calcular os limites dentro dos
quais 95% delas caem. Por exemplo, na Figura 5.23, 95% da amostra de bootstrap se situam
entre 2 e 9. Podemos usar esses valores como uma estimativa dos limites do intervalo de
confiança de 95% do parâmetro. O resultado é conhecido como um intervalo de confiança de
percentile bootstrap (porque é baseado nos valores entre os quais 95% das estimativas de
exemplo do bootstrap caem). A segunda coisa que podemos fazer é calcular o desvio padrão
das estimativas dos parâmetros das amostras do bootstrap e usá-lo como o erro padrão das
estimativas dos parâmetros. Portanto, quando usamos o bootstrapping, estamos efetivamente
a fazer com que o computador use nossos dados de amostra para imitar o processo de
amostragem descrito na Seção 2.5. Um ponto importante a lembrar é que, porque o
bootstrapping baseia-se em tirar amostras aleatórias dos dados que você coletou, as
estimativas que você obterá serão ligeiramente diferentes toda vez. Isto não é nada para se
preocupar. Para uma introdução bastante suave ao conceito de bootstrapping, veja Wright,
London e Field (2011). O SPSS implementa bootstrapping em alguns contextos, o que
encontraremos ao longo de vários capítulos. Alguns procedimentos possuem uma opção de
inicialização, que pode ser acessada clicando para ativar a caixa de diálogo na Figura 5.24 (veja
Lanterna de Oditi). Selecione para ativar o bootstrapping para o procedimento que você está
fazendo atualmente. Em termos de opções, o SPSS calculará um intervalo de confiança de
percentil de 95% (), mas você pode mudar o método para um pouco mais preciso (Efron &
Tibshirani, 1993) chamado de intervalo de confiança corrigido e acelerado (você também pode
mudar O nível de confiança digitando um número diferente de 95 no campo denominado Nível
(%). Por padrão, o SPSS usa 1000 amostras de inicialização, o que é um número razoável, e
você certamente não precisaria usar mais de 2000. Existem versões De procedimentos comuns
como ANOVA, ANCOVA, correlação e regressão múltipla com base em meios aparados e
bootstrapping que permitem ignorar tudo sobre o que discutimos sobre o viés neste capítulo.
Essa é uma história feliz, mas com um final trágico porque você não pode Implemente-os
diretamente no SPSS. O guia definitivo para esses testes é o excelente livro de Wilcox (2012).
Graças a Wilcox, esses testes podem ser implementados usando um programa de estatísticas
gratuito chamado R (www.r-project.org). Re é um plug-in para o SPSS que permite que você
use R através da interface SPSS, mas é complicado trabalhar e, uma vez que está funcionando,
tudo o que realmente faz é permitir que você digite os comandos que você digitaria em R.
Portanto, Eu acho muito mais fácil apenas usar R. Se você quiser seguir essa rota, então escrevi
uma versão deste livro para R que cobre esses testes robustos em alguns detalhes (Field, Miles
e Field, 2012). (Desculpe, isso foi um plug sem vergonha).
Transformando dados
A última coisa que você pode fazer para combater problemas de normalidade e linearidade é
transformar seus dados. A idéia por trás das transformações é que você faça algo para cada
pontuação para corrigir problemas de distribuição, outliers, falta de linearidade ou variâncias
desiguais. Embora alguns alunos muitas vezes (compreensivelmente) pensem que a
transformação de dados soa desonesto (a frase "fudging your results" nas mentes de algumas
pessoas), na verdade, não é porque você faz o mesmo com todas as suas pontuações. Como
tal, transformar os dados altera a forma das relações entre variáveis, mas as diferenças
relativas entre as pessoas para uma determinada variável permanecem iguais, então podemos
ainda quantificar esses relacionamentos. No entanto, ele modifica as diferenças entre
diferentes variáveis (porque altera as unidades de medida). Portanto, se você estiver olhando
relações entre variáveis (por exemplo, regressão), basta transformar a variável problemática,
mas se você estiver analisando diferenças entre variáveis (por exemplo, mudança em uma
variável ao longo do tempo), você precisa transformar todas essas variáveis. Por exemplo,
nossos dados de higiene do festival não eram normais nos dias 2 e 3 do festival. Agora,
podemos querer ver como os níveis de higiene mudaram nos três dias (ou seja, compare a
média no dia 1 aas médias nos dias 2 e 3 para ver se as pessoas ficaram mais cheias). Os dados
dos dias 2 e 3 foram distorcidos e precisam ser transformados, mas, como podemos comparar
os dados com os resultados no dia 1, também teremos que transformar os dados do dia 1
(mesmo que os escores não tenham sido desviados). Se também não alterarmos os dados do
dia 1, as diferenças nas notas de higiene que achamos do dia 1 ao dia 2 ou 3 serão devidas a
nós transformando uma variável e não as demais. No entanto, se olhássemos para o
relacionamento entre as pontuações do dia 1 e do dia 2 (e não a diferença entre eles),
poderíamos transformar apenas as pontuações do dia 2 e deixar o resultado do dia 1 sozinho.
Existem várias transformações que você pode fazer com os dados úteis para corrigir vários
problemas. No entanto, se essas transformações são necessárias ou úteis é uma questão
bastante complexa (ver Jane Superbrain Box 5.7) .12 No entanto, como elas são usadas, a
Tabela 5.1 mostra algumas transformações comuns e seus usos.13 A maneira de decidir qual
transformação usar é Por um bom teste e erro à moda antiga: experimente um, veja se ele
ajuda e, se não, tente um diferente.
A função de cálculo
Para fazer transformações no SPSS, usamos o comando computar, que nos permite realizar
funções (como adicionar ou multiplicar) em colunas de dados no editor de dados. Para acessar
a caixa de diálogo Compute Variable, selecione. A Figura 5.25 mostra a caixa de diálogo
principal; Tem uma lista de funções no lado direito, um teclado semelhante a uma calculadora
no centro e um espaço em branco que rotinei a área de comando. Você digita um nome para
uma nova variável na área denominada Variável de destino e, em seguida, você escreve algum
tipo de comando na área de comando para dizer ao SPSS como criar essa nova variável. Você
usa uma combinação de variáveis existentes selecionadas da lista à esquerda e expressões
numéricas. Então, por exemplo, você poderia usá-lo como uma calculadora para adicionar
variáveis (ou seja, adicionar duas colunas no editor de dados para fazer uma terceira). No
entanto, você também pode usá-lo para gerar dados sem usar variáveis existentes também.
Existem centenas de funções internas que o SPSS agrupou. Na caixa de diálogo, esses grupos
estão listados na área denominada Grupo de funções; Ao selecionar um grupo de funções,
uma lista de funções disponíveis dentro desse grupo aparecerá na caixa denominada Funções
e Variáveis Especiais. Se você selecionar uma função, uma descrição dessa função aparece na
caixa branca indicada na Figura 5.25. Você pode inserir nomes de variáveis na área de
comando, selecionando a variável necessária da lista de variáveis e clicando em. Da mesma
forma, você pode selecionar uma determinada função da lista de funções disponíveis e inseri-
la na área de comando clicando em.
Primeiro, digite um nome de variável na caixa denominada Variável de destino, depois clique e
outra caixa de diálogo, onde você pode dar a variável um rótulo descritivo e especificar se é
uma variável numérica ou de string (ver Seção 3.5.2). Quando você escreveu seu comando
para o SPSS para executar, clique em para executar o comando e criar a nova variável. Se você
digitar um nome de variável que já existe no editor de dados, o SPSS irá dizer-lhe e perguntar
se deseja substituir essa variável existente. Se você responder com Sim, o SPSS substituirá os
dados na coluna existente com o resultado do comando de computação; Se você responder
com Não, nada acontecerá e você precisará mudar o nome da variável alvo. Se você estiver
calculando muitas novas variáveis, pode ser mais rápido usar a sintaxe (veja SPSS Tip 5.2).
Subtração: este botão coloca um sinal de menos na área de comando. Por exemplo, se
quisermos calcular a mudança de higiene do dia 1 ao dia 2, poderíamos digitar 'day2 - day1'.
Isso cria uma coluna em que cada linha contém a pontuação da coluna rotulada dia1 subtraída
da pontuação da coluna rotulada dia 2 (por exemplo, para o participante 1: 2,65 - 1,35 = 1,30).
Multiplicar: este botão coloca um sinal de multiplicação na área de comando. Por exemplo,
'day1 * day2' cria uma coluna que contém a pontuação da coluna identificada dia1
multiplicada pela pontuação da coluna rotulada dia 2 (por exemplo, para o participante 1: 2,65
× 1,35 = 3,58).
Divisão: este botão coloca um sinal de divisão na área de comando. Por exemplo, 'day1 / day2'
cria uma coluna que contém a pontuação da coluna rotulada dia1 dividida pela pontuação da
coluna rotulada dia 2 (por exemplo, para participantes 1: 2,65 / 1,35 = 1,96).
Exponenciação: Este botão aumenta o termo anterior ao poder do termo seguinte. Então,
'day1 ** 2' cria uma coluna que contém as pontuações na coluna day1 aumentada para o
poder de 2 (ou seja, o quadrado de cada número na coluna day1: para o participante 1, 2.652 =
7.02). Do mesmo modo, 'day1 ** 3' cria uma coluna com valores de day1 cubed.
Menos do que: Esta operação geralmente é usada para funções de "incluir caso". Se você clicar
no botão, aparece uma caixa de diálogo que permite selecionar determinados casos para
executar a operação. Então, se você digitar 'day1 <1', então o SPSS executaria a função de
cálculo apenas para os participantes cuja nota de higiene no dia 1 do festival fosse inferior a 1
(ou seja, se o dia 1 fosse de 0,99 ou menos). Então, podemos usar isso se quisermos olhar
apenas para as pessoas que já estavam cheirosas no primeiro dia do festival.
Menor ou igual a: Esta operação é a mesma que acima, exceto que no exemplo acima, os casos
que são exatamente 1 também serão incluídos.
Mais do que: Esta operação é usada para incluir casos acima de um determinado valor. Então,
se você clicou e digiteu 'day1> 1', então o SPSS realizará qualquer análise apenas nos casos em
que as pontuações de higiene no dia 1 do festival foram maiores que 1 (ou seja, 1.01 e acima).
Isso poderia ser usado para excluir pessoas que já estavam cheirosas no início do festival.
Podemos querer excluí-los porque essas pessoas vão contaminar os dados (para não
mencionar nossas narinas), porque eles relembram a putrefação para começar, de modo que o
festival não possa afetar sua higiene.
Mais ou igual a: Esta operação é a mesma que acima, mas incluirá casos que são exatamente 1
também.
Igual a: Você pode usar esta operação para incluir casos para os quais os participantes têm um
valor específico. Então, se você clicou e digite 'day1 = 1', somente os casos com um valor de
exatamente 1 para a variável day1 estão incluídos. Isso é muito útil quando você possui uma
variável de codificação e você quer ver apenas um dos grupos. Por exemplo, se queríamos
olhar apenas para as mulheres no festival, poderíamos digitar 'gender = 1', e então a análise
seria realizada somente em mulheres (que são codificadas como 1 nos dados).
Não é igual a: Esta operação incluirá todos os casos, exceto aqueles com um valor específico.
Então, 'gender ~ = 1' (como na Figura 5.25) executará o comando de cálculo apenas nos
machos e excluirá as fêmeas (porque eles têm 1 na coluna de gênero).
Algumas das funções mais úteis estão listadas na Tabela 5.2, que mostra a forma padrão da
função, o nome da função, um exemplo de como a função pode ser usada e o que SPSS
emitiria se esse exemplo fosse usado. Existem várias funções básicas para calcular meios,
desvios-padrão e somas de colunas. Existem também funções como a raiz quadrada e o
logaritmo que são úteis para transformar dados que estão distorcidos e usaremos essas
funções agora. Para o leitor interessado, os arquivos de ajuda SPSS têm detalhes de todas as
funções disponíveis através da caixa de diálogo Compute Variable (clique em quando você
estiver na caixa de diálogo).
A transformação de log em SPSS
Vamos usar o computo para transformar nossos dados. Abra a caixa de diálogo principal do
cálculo selecionando. Digite o nome logday1 na caixa denominada Target Variable, clique e dê
a variável um nome mais descritivo, como registros de higiene do Log transformado para o dia
1 do Download Festival. Na caixa de lista denominada Grupo de funções, clique em Aritmética
e, em seguida, na caixa denominada Funções e variáveis especiais, clique em Lg10 (esta é a
transformação de log para base 10; Ln é o log natural) e transfere-a para a área de comando
clicando em. Quando o comando é transferido, ele aparece na área de comando como 'LG10
(?)' E o ponto de interrogação deve ser substituído por um nome de variável (que pode ser
digitado manualmente ou transferido da lista de variáveis). Então, substitua o ponto de
interrogação pela variável day1 selecionando a variável na lista e arrastando-a, clicando ou
simplesmente digitando 'day1' onde o ponto de interrogação é. Para os pontos de higiene do
dia 2, existe um valor de 0 nos dados originais e não há logaritmo do valor 0. Para superar o
problema, adicionamos uma constante aos nossos resultados originais antes de efetuar o
registro dessas pontuações. Qualquer constante fará (embora às vezes possa importar), desde
que torne todas as pontuações maiores que 0. Nesse caso, nossa pontuação mais baixa é 0 nos
dados para que possamos adicionar 1 a todas as pontuações para garantir que todos os
resultados São maiores que zero. Mesmo que esse problema afeta as pontuações do dia 2,
precisamos ser consistentes e fazer o mesmo com as pontuações do dia 1, como faremos com
as pontuações do dia 2. Portanto, certifique-se de que o cursor ainda esteja dentro dos
suportes e clique e depois. A caixa de diálogo final deve ser semelhante à Figura 5.25. Observe
que a expressão lê LG10 (dia1 + 1); Ou seja, o SPSS irá adicionar um a cada um dos pontos do
dia 1 e, em seguida, pegue o log dos valores resultantes. Clique em para criar uma nova
variável logday1 contendo os valores transformados.
Para fazer uma transformação de raiz quadrada, passamos pelo mesmo processo, usando um
nome como sqrtday1 na caixa denominada Variável de destino (e clique em para dar à variável
um nome mais descritivo). Na caixa de lista denominada Grupo de funções, clique em
Aritmética e depois na caixa denominada Funções e Variáveis especiais, clique em Sqrt e
arraste-a para a área de comando ou clique em. Quando o comando é transferido, ele aparece
na área de comando como SQRT (?). Substitua o ponto de interrogação pela variável day1
selecionando a variável na lista e arrastando-a, clicando ou simplesmente digitando 'day1'
onde o ponto de interrogação é. A expressão final irá ler SQRT (dia 1). Clique em para criar a
variável.
A transformação recíproca no SPSS
Para fazer uma transformação recíproca nos dados do dia 1, podemos usar um nome como o
recday1 na caixa denominada Variável de destino. Então, podemos simplesmente clicar e
depois. Normalmente, você selecionaria o nome da variável que deseja transformar da lista e
arraste-o, clique ou simplesmente digite o nome da variável. No entanto, os dados do dia 2
contêm um valor zero e, se tentarmos dividir 1 por 0, receberemos uma mensagem de erro
(você não pode dividir por 0). Precisamos adicionar uma constante à nossa variável, assim
como fizemos para a transformação do log. Qualquer constante fará, mas 1 é um número
conveniente para esses dados. Então, em vez de selecionar a variável que queremos
transformar, clique em; Isso coloca um par de colchetes na caixa denominada Expressão
numérica. Em seguida, assegure-se de que o cursor esteja entre esses dois suportes e
selecione a variável que deseja transformar da lista e transfira-a clicando em (ou digite o nome
da
Variável manualmente). Agora clique e depois (ou digite '+ 1' usando seu teclado). A caixa
denominada Expressão numérica agora deve conter o texto 1 / (dia1 + 1). Clique em para criar
uma nova variável contendo os valores transformados.
A Figura 5.26 mostra as distribuições dos dias 1 e 2 do festival após as três transformações
diferentes. Compare estes para as distribuições não transformadas na Figura 5.13. Agora, você
pode ver que as três transformações limparam os índices de higiene para o dia 2: a inclinação
positiva é reduzida (a transformação da raiz quadrada, em particular, tem sido útil). No
entanto, como nossos resultados de higiene no dia 1 foram mais ou menos simétricos para
começar, eles agora se tornaram ligeiramente negativos para a transformação do tronco e da
raiz quadrada e positivamente inclinados para a transformação recíproca.14 Se estamos
usando pontuações do dia 2 sozinho ou olhando a relação entre o dia 1 e o dia 2, então
poderíamos usar as pontuações transformadas; No entanto, se quisermos ver a mudança de
resultados, teríamos que avaliar se os benefícios da transformação para os escores do dia 2
superam os problemas que ele cria nos resultados do dia 1 - a análise de dados pode ser
frustrante às vezes.
Teste T
Imagine que existem quatro pessoas: Peter, Birgit, Jip e Kiki. Nós medimos o quanto
eles sabem sobre Star Wars como porcentagem e recebemos Jip (100%), Kiki (60%),
Peter (40%) e Birgit (0%). Se dividimos essas quatro pessoas na mediana (50%), então
estamos dizendo que Jip e Kiki são iguais (eles obtêm uma pontuação de 1 = fanático) e
Peter e Birgit são os mesmos (ambos obtêm uma pontuação de 0 = não é um fanático).
Na realidade, Kiki e Peter são os mais parecidos das quatro pessoas, mas foram
colocados em grupos diferentes. Assim, as divisões medianas mudam a informação
original de forma bastante dramática (Peter e Kiki são originalmente muito
semelhantes, mas se tornam muito diferentes após a divisão, Jip e Kiki são
relativamente diferentes originalmente, mas se tornam idênticos após a divisão).
Duas notícias falaram sobre algumas pesquisas de física (Di Falco, Ploschner e Krauss,
2010). Na primeira manchete (novembro de 2010), o Daily Mirror (um jornal do Reino
Unido) informou que "cientistas fizeram o manto invisível de Harry Potter". Eu não sou
realmente um aficionado de Harry Potter, por isso não foi sua menção que chamou
minha atenção, mas a idéia de ser capaz de colocar um manto que me tornaria
invisível e capaz de se submeter a maldades foi realmente muito emocionante. Onde
posso comprar um? Até fevereiro 2011, o mesmo jornal estava relatando uma
pesquisa diferente (Chen, et al., 2011), mas veio com uma manchete ligeiramente mais
calma: "capa de invisibilidade de estilo Harry Potter" construída por cientistas ".
Escusado será dizer que os cientistas realmente não fizeram o manto de invisibilidade
de Harry Potter. Di Falco et al. criou um material flexível (Metaflex) que tinha
propriedades ópticas que significava que, se você colocasse em camadas, você poderia
criar algo em torno do qual a luz se dobraria. Não é exatamente um manto no sentido
da roupa da roupa, mas é mais fácil de usar do que, digamos, uma laje de granito.
Chen et al. também não fez um "manto de invisibilidade" no sentido da roupa, mas
criou um pedaço de invisibilidade de calcita. Isso poderia ocultar pequenos objetos
(centímetros e milímetros de escala): você poderia esconder meu cérebro, mas pouco
mais. No entanto, com um pedaço de calcita adequadamente grande, eu poderia
teoricamente esconder meu corpo inteiro (embora as pessoas possam suspeitar do
bloqueio aparentemente autônomo de calcita anseio em torno da sala em um
carrinho).
Embora os jornais provavelmente tenham exagerado pouco o caso, estas são duas
peças de pesquisa muito emocionantes que trazem a possibilidade de uma capa de
invisibilidade mais próxima de uma realidade. Então, imagino um futuro em que
tenhamos algumas capas de invisibilidade para testar. Como psicólogo (com sua
própria série ligeiramente perniciosa), talvez eu esteja interessado no efeito de que o
uso de um manto de invisibilidade tenha sobre a tendência das pessoas para o mal.
Peguei 24 participantes e os coloquei em uma comunidade fechada. A comunidade
estava cheia de câmeras escondidas para que pudéssemos gravar atos maliciosos. A
metade dos participantes recebeu capas de invisibilidade: foi-lhes dito para não contar
a ninguém sobre o seu manto e podiam usá-lo sempre que quisessem. Nós medimos
quantos atos maliciosos realizaram em uma semana. Esses dados estão na Tabela 9.1.
Saída 9.1 (sua tabela terá mais coisas nele - eu editei as minas para economizar
espaço) mostra algumas estatísticas descritivas para esses dados: observe que outros
atos perniciosos foram realizados por pessoas que tinham um manto de invisibilidade,
M = 5, IC de 95% [3.95, 6.05], SD = 1.65, do que aqueles que não, M = 3.75, IC 95%
[2.53, 4.97], SD = 1.91. Não é que devemos confiar nestes testes (ver Jane Box
Superbrain Box 5.5), mas os escores dos dois grupos são normalmente distribuídos
porque os testes K-S têm valores de significância maiores que 0,05.
Preditores categóricos no modelo linear
O astuto entre vocês pode estar pensando 'bs mostram relacionamentos, não
diferenças entre as médias - sobre o que esse engano está acontecendo? Você pode
estar começando a me desconfiar, ou está recarregando o livro de volta em uma caixa
para publicá-lo novamente para obter um reembolso. Eu não o culpo, porque eu
costumava pensar isso também. Para domar uma terra como o complexo, espinhoso,
infestado de ervas daninhas, Andy-comendo e tarântula-mundo habitado de
estatísticas você precisa de uma epifania, e o meu veio na forma de um artigo de
Cohen (1968). Este artigo mostrou-me como, quando comparamos, nós também
estamos usando um modelo linear, que transformou o meu mundo estatístico em um
prado bonito cheio de cordeirinhos balindo todos pulando de alegria na maravilha da
vida.
Se quisermos usar um modelo linear, vimos que esta equação geral se torna equação
(8.1) na qual o modelo é definido por parâmetros: b0 nos diz o valor do resultado
quando o preditor é zero e b1 quantifica a relação entre o preditor (Xi) e o resultado
(Yi) (variável critério). Vimos esta equação muitas vezes, mas vamos tornar isso um
pouco mais concreto para o nosso exemplo. Podemos usar esta equação para prever a
variável Travessuras do grupo ao qual uma pessoa pertence (a capa variável):
O problema que temos é que Cloak é uma variável nominal: as pessoas tinham um
"manto" ou "nenhum manto". Não podemos colocar as palavras em um modelo
estatístico, porque ele irá queimar um buraco na camada de ozônio. Em vez disso,
temos que converter essa variável em números - exatamente da mesma maneira que
fazemos quando inserimos as variáveis nominais no SPSS (ver Seção 3.5.2.3). Quando
inserimos as variáveis nominais no SPSS, na verdade não importa quais os números
que escolhemos, mas se vamos colocar os números em um modelo matemático, então
importa o número que escolhemos para representar as categorias de uma variável
nominal. Existem diferentes maneiras de codificar variáveis (que não entraremos aqui);
um deles é usar variáveis falsas (dummy). Examinaremos isso com mais detalhes na
Seção 10.5.1, mas, em essência, significa que codificamos uma categoria de linha de
base com um 0 e outras categorias com um 1. Neste exemplo, existem duas categorias,
nossa categoria de linha de base não é capa (esta é a condição de controle) e,
portanto, atribuímos a esses participantes um 0 para o manto variável, e o grupo
"experimental" é aquele que recebeu um manto e assim nós atribuímos estes a. Na
verdade, esta é a mesma codificação que nós usado no arquivo SPSS. Vamos tapar
esses números no modelo e ver o que acontece.
Em primeiro lugar, vamos imaginar que alguém está na condição de
impermeabilização. Qual seria a melhor previsão que poderíamos fazer do número de
atos maliciosos para alguém desse grupo? Nosso melhor palpite seria a média do
grupo (o que é 3,75 na saída 9.1). Então, o valor de Y na equação será o grupo Sem
Capa, e o valor da variável Cloak será 0. Como tal, a equação (9.1) torna-se (se
ignorarmos o termo residual):
O teste t
Até agora, analisamos como podemos incluir um preditor categórico em nosso modelo
linear para testar as diferenças entre duas médias. Esta abordagem é útil para lhe
mostrar a alegria simplista que é a modelo linear, e manter o segmento de modelos
lineares que atravessam o livro. No entanto, o que acabei de descrever não é
normalmente como as pessoas pensam em comparar médias, e não é como a SPSS
gosta de comparar médias. Isso ocorre porque as pessoas não querem que você
perceba que a maioria dos modelos estatísticos são os mesmos porque isso os tornará
menos inteligentes. A outra razão é que o que acabei de explicar é complicado quando
queremos olhar para projetos de medidas repetidas. Portanto, ao testar a diferença
entre duas médias, as pessoas tendem a pensar no teste t como uma entidade
separada. Nesta seção, analisaremos os fundamentos teóricos do teste. Existem, de
fato, duas t-testes diferentes e o que você usa depende de se a variável independente
foi manipulada usando os mesmos participantes ou diferente:
Duas amostras de dados são coletadas e a amostra é calculada. Essas médias podem
diferir um pouco ou muito.
1. Não há efeito e a amostra significa que nossa população flutua muito e, por
acaso, coletamos duas amostras atípicas da população de onde elas vieram.
Quanto maior a diferença observada entre a amostra, mais confiante é que a segunda
explicação é correta. Se a hipótese nula for incorreta, ganhamos confiança de que as
duas médias da amostra diferem por causa da manipulação experimental diferente
imposta em cada amostra.
Eu mencionei na Seção 2.6.1.4 que a maioria das estatísticas de teste são uma relação
sinal-ruído: a "variância explicada pelo modelo" dividida pela "variância que o modelo
não pode explicar". Em outras palavras, efeito / erro. Ao comparar dois meios, o
"modelo" que cabemos aos dados (o efeito) é a diferença entre os dois meios de
grupo. Vimos também no Capítulo 2 que significa variar de amostra para amostra
(variação de amostragem) e que podemos usar o erro padrão como medida de quanto
flutuam (ou seja, o erro na estimativa da média). Portanto, também podemos usar o
erro padrão das diferenças entre os dois meios como uma estimativa do erro em nosso
modelo (ou o erro na diferença entre as médias). Portanto, calculamos o teste t da
seguinte maneira:
A metade superior da equação é o "modelo" (nosso modelo é que a diferença entre as
médias é maior que a diferença esperada, que na maioria dos casos será 0 - esperamos
que a diferença entre as médias seja diferente de zero). A metade inferior é o 'erro'.
Assim, como eu disse no Capítulo 2, basicamente estamos obtendo a estatística de
teste dividindo o modelo (ou efeito) pelo erro no modelo. A forma exata que essa
equação leva depende de se os participantes iguais ou diferentes foram utilizados em
cada condição experimental.
A equação (9.5) é verdadeira somente quando os tamanhos das amostras são iguais.
Muitas vezes, na ciência, não é possível coletar amostras de tamanho igual (porque,
por exemplo, as pessoas podem não completar uma experiência). Quando queremos
comparar dois grupos que contêm diferentes números de participantes, a equação
(9.5) não é apropriada. Em vez disso, utiliza-se o teste t de estimativa de variância
agrupada que leva em consideração a diferença no tamanho da amostra ponderando a
variância de cada amostra. Vimos no Capítulo 1 que grandes amostras são melhores do
que pequenas, porque se aproximam mais da população; portanto, pesamos a
variância pelo tamanho da amostra em que se baseia (nós realmente pesamos pelo
número de graus de liberdade, que é o tamanho da amostra menos 1). Portanto, a
estimativa da variância agrupada é:
A saída do teste t independente contém apenas três tabelas (duas se você não optar
por bootstrapping). A primeira tabela (Saída 9.3) fornece estatísticas de resumo para
as duas condições experimentais (se você não solicitar bootstrapping, esta tabela será
um pouco mais direta). A partir desta tabela, podemos ver que ambos os grupos
tinham 12 participantes (linha rotulada N).
O grupo que não tinha capa, em média, realizou 3,75 atos maliciosos com um desvio
padrão de 1,913. Além disso, o erro padrão desse grupo é 0.552 (SE = 1.913 / √12 =
1.913 / 3.464 = 0.552). A estimativa SE do bootstrap é 0,53 e o intervalo de confiança
inicializado para a média varia de 2,92 a 4,58.
Vimos na Seção 5.3.3 que podemos usar o teste de Levene para ver se as variações são
diferentes em diferentes grupos, e SPSS produz esse teste para nós. Lembre-se de que
o teste de Levene é semelhante a um teste t em que ele testa a hipótese de que as
variações nos dois grupos são iguais (ou seja, a diferença entre as variâncias é zero).
Portanto, se o teste de Levene é significativo em p ≤ .05, sugere que a suposição de
homogeneidade de variâncias tenha sido violada. Se, no entanto, o teste de Levene
não é significativo (ou seja, p> 0,05), então podemos assumir que as variações são
aproximadamente iguais e a suposição é sustentável. Para esses dados, o teste de
Levene não é significativo (porque p = .468, que é maior que 0,05) e, portanto,
devemos ler as estatísticas de teste na linha denominada Variações iguais assumidas.
Se o teste de Levene tivesse sido significativo, então teríamos lido as estatísticas de
teste da linha rotada de variâncias iguais não assumidas.
A saída 9.5 mostra os resultados do bootstrapping (se você selecionou). Você pode ver
que o procedimento de inicialização foi aplicado para reavaliar o erro padrão da
diferença média (que é estimado como .726 em vez de .730, o valor na saída 9.4). SPSS
também calcula um intervalo de confiança bootstrapped para a diferença entre as
médias são computados. A diferença entre as médias é -1,25 e o intervalo de confiança
varia de -2,606 a 0,043. O intervalo de confiança implica que a diferença entre as
médias na população pode ser negativa, positiva ou mesmo zero (porque o intervalo
varia de um valor negativo para um positivo). Em outras palavras, é possível que a
verdadeira diferença entre as médias seja zero - nenhuma diferença. Portanto, este
intervalo de confiança bootstrap confirma nossa conclusão de que ter um manto de
invisibilidade parece não afetar atos de malícia.
Cálculo do tamanho do efeito
Mesmo que nossa estatística t não seja estatisticamente significativa, isso não significa
necessariamente que nosso efeito não seja importante em termos práticos. Para
descobrir se o efeito é substancial, podemos calcular os tamanhos de efeito (ver Seção
2.7.1). A conversão de um valor t em um valor r é bastante fácil; podemos usar a
seguinte equação (por exemplo, Rosenthal, 1991; Rosnow & Rosenthal, 2005):
Se você pensa de volta aos nossos benchmarks para tamanhos de efeito, isso
representa um efeito médio (é em torno de .3, o limite para um efeito médio).
Portanto, apesar de o efeito não ser significativo, ele ainda representava um efeito
bastante substancial. Poderíamos, em vez disso, calcular o d de Cohen (Seção 2.7.1.1),
usando os dois meios (5 e 3.75) e o desvio padrão do grupo de controle (sem manto):
Isso significa que há 0,65 de uma diferença de desvio padrão entre os dois grupos em
termos de fazer mal, o que novamente é um efeito bastante substancial.
Como já vimos antes, existe uma maneira bastante padrão de relatar qualquer
estatística de teste: geralmente você declara o achado ao qual o teste se relaciona e
depois reporta a estatística de teste, seus graus de liberdade e o valor de
probabilidade dessa estatística de teste. Uma estimativa do tamanho do efeito
também deve ser relatada. A saída SPSS nos diz que o valor de t foi -1,71; que o
número de graus de liberdade em que se baseou foi 22; e que não foi significativo, p =
0,101. Também podemos ver as médias para cada grupo. Nós
poderia escrever isso como:
Em média, os participantes receberam um manto de invisibilidade envolvido
em mais atos de maldade (M = 5, SE = 0,48), do que aqueles que não
receberam um manto (M = 3,75, SE = 0,55). Esta diferença, -1,25, BCa 95% CI [-
2,606, 0,043], não foi significante t (22) = -1,71, p = 0,101; no entanto,
representou um efeito de tamanho médio, d = 0,65.
Observe como relatamos as médias em cada grupo (e erros padrão), a diferença média
e seu intervalo de confiança bootstrapped, e a estatística de teste, seus graus de
liberdade e valor p. Tente evitar escrever coisas vagas e infundadas como esta:
Mais malicioso do que o que? Onde estão os df? O resultado foi estatisticamente
significativo? O efeito foi importante (qual foi o tamanho do efeito)?
Inserção de dados
Os dados agora seriam organizados de forma diferente no SPSS. Em vez de ter uma
variável de codificação e uma única coluna com pontuação de malhas, organizaremos
os dados em duas colunas (uma representando a condição de Capa e outra
representando a condição No_Cloak). Os dados estão em Invisibility RM.sav se você
teve dificuldade em entrar no SPSS você mesmo.
Em uma das auto-testes anteriores, pedi-lhe que produza um gráfico de barras de erro
para os dados quando o tratamos como um design independente, e agora produzimos
um de um design de medidas repetidas. A Figura 9.5 mostra esses gráficos; lembre-se
de que os dados são exatamente os mesmos, tudo isso mudou é se fingimos o design
usado pelos mesmos participantes (medidas repetidas) ou diferentes (independentes).
Agora, descobrimos no Capítulo 1 que os projetos de medidas repetidas eliminam
algumas variáveis estranhas (como idade, IQ e assim por diante) e, assim, podem nos
dar mais sensibilidade nos dados. Portanto, esperamos que nossos gráficos sejam
diferentes: o gráfico de medidas repetidas deve refletir a sensibilidade aumentada no
projeto. Olhando para os dois gráficos de barras de erro, você pode detectar essa
diferença entre os gráficos?
Esperemos que sua resposta seja "não" porque, é claro, os gráficos são idênticos. Essa
semelhança reflete o fato de que quando você cria um gráfico de barras de erros de
dados de medidas repetidas, o SPSS trata os dados como se diferentes grupos de
participantes fossem usados. Em outras palavras, as barras de erro não refletem o erro
"verdadeiro" em torno das médias para projetos de medidas repetidas. Podemos
corrigir este problema manualmente. É um pouco de faff, mas é isso que vamos
descobrir agora.
Dois gráficos de barras de erro dos dados de invisibilidade. Os dados à esquerda são
tratados como se fossem participantes diferentes, enquanto aqueles à direita são
tratados como se fossem dos mesmos participantes
Computação do teste t de amostras pareadas
A saída 9.6 também mostra a correlação de Pearson entre as duas condições. Quando
são utilizadas medidas repetidas, é possível que as condições experimentais se
correlacionem (porque os dados em cada condição provêm das mesmas pessoas e,
portanto, pode haver alguma constância nas suas respostas). O SPSS fornece o valor da
r de Pearson e do valor de significância de duas colunas (ver Capítulo 7). Para esses
dados, as condições experimentais produzem um coeficiente de correlação muito
grande, r = 0,806, o que é altamente significativo, p = 0,002 e tem um intervalo de
confiança de inicialização que não inclui zero, BCa IC 95% [0,185, 0,965].
A saída 9.7 mostra-nos se a diferença entre as médias das duas condições foi grande o
suficiente para não ser um resultado casual. Primeiro, a tabela nos diz a diferença
média entre os escores médios de cada condição: 3,75 - 5 = -1,25 (esse valor está na
equação (9,8)). A tabela também relata o desvio padrão das diferenças entre as médias
e, mais importante, o erro padrão das diferenças entre as pontuações dos
participantes em cada condição. A estatística de teste, t, é calculada dividindo a média
das diferenças pelo erro padrão de diferenças (ver equação (9.8): t = -1.25 / 0.329 = -
3.804). O tamanho de t é comparado com valores conhecidos com base nos graus de
liberdade. Quando os mesmos participantes foram utilizados, os graus de liberdade
são o tamanho da amostra menos 1 (df = N - 1 = 11). O SPSS usa os graus de liberdade
para calcular a probabilidade exata de que um valor de t tão grande como o obtido
poderia ocorrer se não houvesse diferença entre a população. Esse valor de
probabilidade está na coluna com sigla Sig. SPSS fornece a probabilidade de duas
caudas, que é a probabilidade quando nenhuma previsão foi feita sobre a direção das
diferenças de grupo e a que eu recomendo usar (ver Seção 2.6.1.5). A probabilidade de
duas caudas para os dados de invisibilidade é muito baixa (p = 0,003); Isso nos diz que
existe apenas uma chance de 0,3% de que um valor de t pelo menos esse grande
poderia ocorrer se a hipótese nula fosse verdadeira. Estamos interessados em saber se
esse valor é inferior ou superior a .05, e porque o valor de p é inferior a .05, podemos
concluir que houve uma diferença significativa entre as médias dessas duas amostras.
Em termos do experimento, podemos inferir que ter um manto de invisibilidade afetou
significativamente a quantidade de maldade que uma pessoa conseguiu, t (11) = -3.80,
p = .003. Esse resultado foi previsto pelo gráfico de barras de erro na Figura 9.10.
Esse valor representa um efeito muito grande (está acima de .5, o limite para um
grande efeito). Portanto, além de ser estatisticamente significativo, esse efeito é uma
descoberta substantiva. Você pode notar que o efeito cresceu: era .34 quando
tratamos os dados como se fosse de um design independente. Esse crescimento no
tamanho do efeito pode parecer um pouco estranho, dado que usamos exatamente os
mesmos dados (mas veja a Seção 9.7). Dunlap, Cortina, Vaslow e Burke (1996)
concordariam e mostraram que o uso de um t de um teste t de amostras pareadas leva
a uma verestima do tamanho do efeito populacional (embora eles discutissem d em
vez de r). Você poderia, em vez disso, calcular o d de Cohen (Seção 2.7.1.1) como
fizemos na Seção 9.5.5:
Observe que a mudança no design não afeta o cálculo; portanto, o tamanho do efeito
não muda como resultado do tipo de projeto usado e podemos interpretá-lo como
antes. A este respeito, pode ser preferível r.
Variáveis contínuas como essas, que não fazem parte da manipulação experimental
principal, mas que influenciam a variável dependente, são conhecidas como
covariáveis e podem ser incluídas em uma análise ANOVA. Quando medimos
covariáveis e as incluímos em uma análise de variância, chamamos análise de
covariância (ou ANCOVA para breve). Este capítulo enfoca essa técnica.
Para o grupo de baixa dose, a variável dummy Low é 1 e High é 0, então a média
ajustada é:
Para o grupo de doses elevadas, a variável dummy Low é 0 e High é 1, então a média
ajustada é:
Agora podemos ver que os valores b para as duas variáveis simuladas representam as
diferenças entre esses meios ajustados (4.71-2.93 = 1.78 para Low_Placebo e 5.15-2.93
= 2.22 para High_Placebo). Estas médias ajustadas são a quantidade média de libido
para cada grupo no nível médio da libido do parceiro. É por isso que algumas pessoas
pensam em ANCOVA como "controlando" a covariável, porque compara o grupo
previsto para o valor médio da covariável, de modo que os grupos estão sendo
comparados a um nível da covariável que é o mesmo para cada grupo. No entanto,
como veremos, a analogia do "controle pela covariável" não é boa. Para reiterar, você
geralmente não administra ANCOVA através dos menus de regressão do SPSS (mas
veja SPSS Dica 12.1); eu fiz isso aqui para ilustrar que ANCOVA é simplesmente um
modelo de regressão como todos os outros que encontramos neste livro. Não é
assustador ou complicado, é o mesmo modelo que usamos inúmeras vezes antes.
Eu disse na seção anterior que um uso do ANCOVA é reduzir variância de erro dentro
do grupo, permitindo que a covariável explique algumas dessas variâncias de erro. No
entanto, para que isso seja verdade, a covariável deve ser independente do efeito
experimental. A Figura 12.2 mostra três cenários diferentes:
A Parte A mostra uma ANOVA básica e é semelhante à Figura 11.4; isso mostra que
o efeito experimental (no nosso exemplo de libido) pode ser dividido em duas partes
que representam o efeito experimental ou de tratamento (neste caso, a
administração de Viagra) e o erro ou variância inexplicada (ou seja, fatores que
afetam a libido que não temos 't medido).
Esse problema pode ser evitado através de randomização de participantes para grupos
experimentais, ou pela correspondência de grupos experimentais na covariável (no
nosso exemplo de ansiedade, você poderia tentar encontrar participantes para o grupo
de baixa ansiedade que apresentou alto índice de depressão). Podemos verificar se
esse problema provavelmente será um problema, verificando se os grupos
experimentais diferem na covariável antes de executar o ANCOVA. Para usar o nosso
exemplo de ansiedade novamente, podemos testar se nossos grupos de alta e baixa
ansiedade diferem nos níveis de depressão (com teste t ou ANOVA). Se os grupos
não diferem significativamente, então podemos usar a depressão como covariável.
Vamos tentar tornar este conceito um pouco mais concreto. Lembre-se que o principal
exemplo neste capítulo analisa se diferentes doses de Viagra afetam a libido ao incluir
a libido do parceiro como uma covariável. A hipótese de homogeneidade de inclinação
de regressão significa que a relação entre o resultado (variável dependente) e a
covariável é a mesma em cada um dos nossos grupos de tratamento. A Figura 12.3
mostra um diagrama de dispersão que exibe essa relação (ou seja, a relação entre a
libido do parceiro, a covariável e o desfecho, a libido do participante) para cada uma
das três condições experimentais. Cada símbolo representa os dados de um
participante específico e o tipo de símbolo nos informa o grupo (círculos = placebo,
triângulos = baixa dose, quadrados = alta dose). As linhas são as inclinações de
regressão para o grupo em particular; eles resumem a relação entre libido e libido do
parceiro mostrada pelos pontos (grupo azul = grupo placebo, verde = grupo de baixa
dose, vermelho = grupo de doses elevadas). Existe uma relação positiva (a linha de
regressão flui para cima da esquerda para a direita) entre a libido do parceiro e a libido
do participante, tanto no placebo quanto nas condições de baixa dose. De fato, as
encostas das linhas para esses dois grupos (azul e verde) são muito semelhantes,
mostrando que a relação entre libido e libido do parceiro é muito similar nesses dois
grupos. Esta situação é um exemplo de homogeneidade das inclinações de regressão.
No entanto, na condição de alta dose, parece haver uma relação ligeiramente negativa
entre a libido e a libido do parceiro. A inclinação desta linha é muito diferente das
encostas nos outros dois grupos, sugerindo heterogeneidade das inclinações de
regressão (porque a relação entre a libido do participante e a libido do parceiro é
diferente no grupo de doses elevadas do que os outros dois grupos).
Embora em uma ANCOVA tradicional, a heterogeneidade das inclinações de regressão
é uma coisa ruim (Jane Superbrain Box 12.2), existem situações em que você
realmente pode esperar que as inclinações de regressão diferem entre os grupos e
esta é, por si só, uma hipótese interessante. Quando a pesquisa é conduzida em
diferentes locais, você pode razoavelmente esperar que os efeitos que você consegue
diferirem ligeiramente entre esses locais. Por exemplo, se você tivesse um novo
tratamento para dor nas costas, você pode obter vários fisioterapeutas para
experimentá-lo em diferentes hospitais. Você pode esperar que o efeito do tratamento
seja diferente entre esses hospitais (porque os terapeutas serão diferentes em
especialidade, os pacientes que eles verão terão problemas diferentes e assim por
diante). Como tal, a heterogeneidade das inclinações de regressão não é uma coisa
ruim por si só. Se você violou a hipótese de homogeneidade das inclinações de
regressão, ou se a variabilidade nas inclinações de regressão é uma hipótese
interessante em si mesma, então você pode modelar explicitamente essa variação
usando modelos lineares multiníveis (ver Capítulo 20).
Procedimento geral
Introduzir dados
A saída 12.3 mostra os resultados dessa ANOVA. O efeito principal da dose não é
significativo, F (2, 27) = 1,98, p = 0,16, o que mostra que o nível médio de libido do
parceiro era aproximadamente o mesmo nos três grupos Viagra. Em outras palavras,
as médias para a libido do parceiro na Tabela 12.2 não são significativamente
diferentes nos grupos de placebo, baixa e alta. Este resultado é uma boa notícia para
usar a libido do parceiro como covariável na análise.
A análise principal
Existem várias caixas de diálogo que podem ser acessadas a partir da caixa de diálogo
principal. A primeira coisa a notar é que, se uma covariável for selecionada, os testes
pos hoc são desativados (você não pode acessar esta caixa de diálogo). Testes post hoc
não são projetados para situações em que uma covariável é especificada; no entanto,
algumas comparações ainda podem ser feitas usando contrastes.
Clique no botão CONTRASTE para acessar a caixa de diálogo Contraste. Esta caixa de
diálogo é diferente da que conhecemos no Capítulo 11, na medida em que não é
possível inserir códigos para especificar contrastes particulares (mas veja SPSS Dica
12.1). Em vez disso, você pode especificar um dos vários contrastes padrão. Esses
contrastes padrão foram listados na Tabela 11.6. Neste exemplo, houve uma condição
de controle de placebo (codificada como o primeiro grupo), de modo que um conjunto
sensível de contrastes seria simples contrastes comparando cada grupo experimental
com o controle. Para selecionar um tipo de contraste, clique em NENHUM para
acessar uma lista suspensa de possíveis contrastes. Selecione um tipo de contraste
(neste caso SIMPLES) desta lista. Para contrastes simples, você tem a opção de
especificar uma categoria de referência (qual é a categoria contra a qual todos os
outros grupos são comparados). Por padrão, a categoria de referência é a última
categoria, mas porque, para nossos dados, o grupo de controle foi a primeira categoria
(assumindo que você codificou o placebo como 1) precisamos alterar essa opção
selecionando. Quando você selecionou PRIMEIRO uma nova opção de contraste, você
deve clicar para registrar essa alteração. A caixa de diálogo final deve ser a Figura 12.6.
Clique em CONTINUE para retornar à caixa de diálogo principal.
Outras opções
Você pode obter uma série limitada de testes post hoc clicando em OPÇÕES para
acessar a caixa de diálogo Opções (veja a Figura 12.7). Para especificar testes pós-hoc,
selecione a variável independente (neste caso Dose) da caixa denominada Médias
Marginais Estimadas: Fator (s) e Interações de Fator e arraste-o para a caixa
denominada Exibir Meios para ou clique em. Uma vez que uma variável foi transferida,
a caixa rotulada Comparar efeitos principais torna-se ativa e você deve selecionar esta
opção (COMPARAR PRINCIPAIS EFEITOS). Se esta opção for selecionada, a caixa
denominada Ajuste de intervalo de confiança torna-se ativa e você pode clicar para ver
uma escolha de três níveis de ajuste. O padrão é não ter nenhum ajuste e
simplesmente executar um teste post hoc Tukey LSD (esta opção não é recomendada);
o segundo é pedir uma correção de Bonferroni (recomendada); a opção final é ter uma
correção Šidák. A correção de Šidák é semelhante à correção de Bonferroni, mas é
menos conservadora e, portanto, deve ser selecionada se você estiver preocupado
com a perda de poder associada aos valores corrigidos por Bonferroni. Para este
exemplo, use a correção Šidák (já usamos Bonferroni no livro). Além de produzir Testes
post hoc para a variável Dose, o SPSS criará uma tabela de meios marginais estimados
para esta variável. Essas médias fornecem uma estimativa das médias de grupo
ajustadas (isto é, as médias ajustadas para o efeito da covariável). Quando você
selecionou as opções necessárias (veja Jane Superbrain Box 12.3), clique em para
retornar à caixa de diálogo principal.
Bootstrapping e parcelas
Existem outras opções disponíveis na caixa de diálogo principal. Por exemplo, se você
tiver várias variáveis independentes, você pode traçá-las uma contra a outra (o que é
útil para interpretar os efeitos de interação - veja a Seção 13.6). Além disso, como com
ANOVA unidirecional, a caixa de diálogo principal possui um botão BOOTSTRAP.
Selecionar esta opção iniciará os intervalos de confiança em torno das médias
marginais estimadas, estimativas de parâmetros e testes post hoc, mas não o teste F
principal. Isso pode ser útil para selecionar as opções descritas na Seção 5.4.3. Clique
OK na caixa de diálogo principal para executar a análise.
A saída 12.5 mostra (para fins ilustrativos) a tabela da ANOVA para esses dados
quando a covariável não está incluída. É claro que a partir do valor de significância, que
é maior que 0,05, que o Viagra parece não ter um efeito significativo na libido.
Também deve notar-se que a quantidade total de variação a ser explicada (SST) é de
110,97 (Total corrigido), dos quais a manipulação experimental representou 16,84
unidades (SSM), com 94,12 inexplicável (SSR).
A análise principal
A saída 12.6 mostra os resultados do teste de Levene (seção 5.3.3.2) e a tabela ANOVA
quando a libido do parceiro está incluída no modelo como covariável. O teste de
Levene é significativo, indicando que as variâncias do grupo não são iguais (portanto,
a hipótese de homogeneidade de variância foi violada). No entanto, como mencionei
na seção 5.3.3., O teste de Levene deve ser usado com cautela e, como a ANCOVA é
um modelo linear, é a homogeneidade dos resíduos que realmente importam (e isso
não é o que o teste de Levene examina aqui). Idealmente, você examinaria alguns
lotes de resíduos como fizemos no Capítulo 8 e, se iniciarmos as estimativas de
parâmetros e os testes pós-hoc, podemos ter confiança nestes robustos.
O formato da tabela ANOVA é em grande parte o mesmo que sem a covariável, exceto
que há uma linha adicional de informações sobre a covariável (Partner_Libido).
Olhando primeiro para os valores de significância, é claro que a covariável prediz
significativamente a variável dependente, porque o valor de significância é inferior a
0,05. Portanto, a libido da pessoa é influenciada pela libido de seu parceiro. O que é
mais interessante é que quando o efeito da libido do parceiro é removido, o efeito do
Viagra torna-se significativo (p = 0,27). A quantidade de variação representada pelo
Viagra aumentou para 25,19 unidades e a variância inexplicada (SSR) foi reduzida para
79,05 unidades. Observe que a SST não mudou; tudo isso mudou é como essa variação
total é explicada.
Este exemplo ilustra como o ANCOVA pode nos ajudar a exercer um controle
experimental mais rigoroso, levando em consideração variáveis confusas para nos dar
uma medida "mais pura" de efeito da manipulação experimental. Sem levar em conta
a libido dos parceiros dos participantes, teríamos concluído que o Viagra não teve
efeito sobre a libido, mas sim. Olhando para o grupo de médias da Tabela 12.1 para os
dados da libido, você pode pensar que a ANOVA significativa reflete uma diferença
entre o grupo de placebo e os dois grupos experimentais (porque os grupos de doses
baixas e altas possuem médias muito semelhantes, 4,88 e 4,85, enquanto que o grupo
placebo significa muito menor a 3,22). No entanto, não podemos usar essas médias de
grupo para interpretar o efeito porque eles não foram ajustados para o efeito da
covariável. Essas médias originais não nos dizem nada sobre as diferenças grupais
refletido pelo significativo ANCOVA.
A saída 12.7 fornece os valores ajustados dos meios de grupo (que calculamos na
Seção 12.2.1.2) e são esses valores que devem ser usados para interpretação (este é o
principal motivo para selecionar a opção EXIBIR MÉDIAS para opção). A partir dessas
médias ajustadas, você pode ver que a libido aumentou nas três doses.
OUTPUT 12.8
Os graus de liberdade para o teste t dos parâmetros b são N-p-1 (como é o caso da
regressão múltipla, ver Seção 8.2.5.), Na qual N é o tamanho total da amostra (neste
caso 30) e p é o número de preditores (neste caso 3, as duas variáveis fofas e a
covariável). Para estes dados, df = 30 - 3 - 1 = 26. Com base nos significados e
intervalos de confiança do bootstrapped (lembre-se de que você terá valores
diferentes de mim por causa do funcionamento do bootstrapping), podemos concluir
que a alta dose difere significativamente o grupo do placebo, p = 0,016 (Dose = 1 na
tabela), mas não do grupo de baixa dose, p = .556, (Dose = 2 na tabela).
A coisa final a notar é o valor de b para o covariável (0.416), que é o mesmo que na
saída 12.2 (quando realizamos a análise através do menu de regressão). Esse valor nos
diz que se a libido de um parceiro aumenta em uma unidade, então a libido da pessoa
deve aumentar em pouco menos de metade da unidade (embora não haja nada para
sugerir uma ligação causal entre os dois); porque o coeficiente é positivo, sabemos
que, à medida que a libido do parceiro aumenta, o mesmo acontece com o de seu
parceiro. Um coeficiente negativo significaria o oposto: como um aumenta, o outro
diminui.
Contrastes
A saída 12.10 mostra os resultados das comparações post hoc corrigidas por Šidák que
foram solicitadas como parte da caixa de diálogo Opções. A tabela inferior mostra os
significados e intervalos de confiança do bootstrapped para esses testes e, porque
estes serão robustos, interpretaremos essa tabela (novamente, lembre-se, seus
valores serão diferentes por causa do funcionamento do bootstrapping). Existe uma
diferença significativa entre o grupo placebo e os grupos de dose baixa (p = 0,003) e
alta (p = 0,02). Os grupos de doses altas e baixas não diferiram significativamente (p =
0,56). É interessante que a diferença significativa entre os grupos de baixa dose e
placebo quando bootstrapped (p = 0,003) não está presente para os testes pós hoc
normais (p = 0,130). Isso pode refletir as propriedades dos dados que têm polarizado a
versão não robusta do teste post hoc.
Interpretando a covariável
Portanto, para começar, você deve selecionar Dose e Partner_Libido (você pode
selecionar ambos ao mesmo tempo, mantendo pressionada a tecla Ctrl ou Cmd em um
Mac). Em seguida, clique no menu drop-down e altere-o para . Depois de
selecionar isso, clique em para mover os principais efeitos de Dose e Partner_Libido
para a caixa rotulada Model. Em seguida, especifique o termo de interação ao
selecionar novamente Dose e Partner_Libido simultaneamente (conforme descrito) e
selecione na lista suspensa e clique em. Essa ação move a interação de
Dose e Partner_Libido com a caixa rotulada Model. A caixa de diálogo concluída deve
ser a Figura 12.9. Clique em para retornar à caixa de diálogo principal e
depois clique em para executar a análise.
Vimos no capítulo anterior que podemos usar eta quadrado, η2, como medida de
tamanho de efeito em ANOVA. Este tamanho de efeito é apenas r2 por outro nome e é
calculado dividindo o efeito de interesse, SSM, pela quantidade total de variância nos
dados, SST. Como tal, é a proporção da variância total explicada por um efeito. Em
ANCOVA (e algumas das ANOVAs mais complexas que encontraremos em capítulos
futuros), temos mais de um efeito; portanto, podemos calcular eta quadrado para
cada efeito. No entanto, também podemos usar uma medida de tamanho de efeito
chamada parcial eta quadrado (η2 parcial). Isso difere do eta quadrado na medida em
que não se refere à proporção de variância total que uma variável explica, mas na
proporção de variância que uma variável explica que não é explicada por outras
variáveis na análise. Vejamos isso com o nosso exemplo; suponha que queremos saber
o tamanho do efeito da dose de Viagra. Parcial eta quadrado é a proporção de
variância na libido que a dose de Viagra compartilha que não é atribuída à libido do
parceiro (a covariável). Se você pensa sobre a variância que a covariável não pode
explicar, existem duas fontes: não pode explicar a variância atribuível à dose de Viagra,
SSViagra, e não pode explicar a variabilidade de erro, SSR. Portanto, usamos essas duas
fontes de variação em vez da variabilidade total, SST, no cálculo. A diferença entre eta
quadrado e parcial eta quadrado é mostrada nas seguintes equações:
Podemos obter SPSS para produzir parcial eta caráter para nós (ver Jane Superbrain
Box 12.3). Para ilustrar o seu cálculo, vejamos nosso exemplo Viagra. Precisamos usar
as somas dos quadrados na saída 12.6 para o efeito da dose (25.19), da covariável
(15.08) e do erro (79.05):
Esses valores mostram que Dose explicou uma maior proporção da variância não
atribuível a outras variáveis do que Partner_Libido.
Tal como acontece com ANOVA, você também pode usar omega quadrado (ω 2). No
entanto, como vimos na Seção 11.8, esta medida só pode ser calculada quando temos
números iguais de participantes em cada grupo (o que não é o caso neste exemplo).
Então, estamos um pouco perplexos!
No entanto, tudo não está perdido porque, como já disse muitas vezes, o tamanho do
efeito geral não é tão interessante quanto o tamanho do efeito para comparações
mais focadas. Estes são fáceis de calcular porque selecionamos parâmetros de
regressão (ver saída 12.8) e, portanto, temos estatísticas t para a covariável e
comparações entre os grupos de doses baixas e altas e o grupo placebo e dose alta.
Essas estatísticas t têm 26 graus de liberdade (ver Seção 12.5.1.). Podemos usar a
mesma equação que na seção 9.6.4 .:
Se você pensa de volta aos nossos benchmarks para tamanhos de efeito, o efeito da
covariável e a diferença entre a dose elevada e o placebo representam tamanhos de
efeito médio a grande (estão todos entre 0,4 e 0,5). Portanto, além de serem
estatisticamente significativos, esses efeitos são resultados substantivos. A diferença
entre os grupos de dose alta e baixa foi um efeito bastante pequeno.
Resultados do relatório
Informar o ANCOVA é muito parecido com a ANOVA de relatórios, exceto que agora
devemos relatar o efeito da covariável também. Para o covariável e o efeito
experimental, damos detalhes da relação F e dos graus de liberdade a partir dos quais
foi calculado. Em ambos os casos, a razão F foi derivada de dividir os quadrados
médios para o efeito pelos quadrados médios para o residual. Portanto, os graus de
liberdade utilizados para avaliar a relação F são os graus de liberdade para o efeito do
modelo (dfM = 1 para o covariável e 2 para o efeito experimental) e os graus de
liberdade para os resíduos do modelo ( dfR = 26 para o efeito covariável e
experimental) - ver saída 12.6. Portanto, a maneira correta de relatar as principais
descobertas seria:
Os contrastes planejados revelaram que ter uma alta dose de Viagra aumentou
significativamente a libido em comparação com um placebo, t (26) = -2,77, p = 0,01, r =
0,48, mas não comparado a uma baixa dose, t (26) = -0,54, p = 0,50, r = 0,11.
ANOVA Fatorial (GLM 3)
Projetos fatoriais
Nos dois capítulos anteriores, exploramos situações nas quais analisamos os efeitos de
uma única variável independente em algum resultado. No entanto, as variáveis
independentes geralmente ficam solitárias e querem ter amigos. Os cientistas estão
obrigando os indivíduos e muitas vezes colocam uma segunda (ou terceira) variável
independente em seus projetos para manter a companhia dos outros. Quando um
experimento tem duas ou mais variáveis independentes, ele é conhecido como um
projeto fatorial (isto é, porque, como vimos, as variáveis às vezes são referidas como
fatores). Existem vários tipos de design fatorial:
Como você pode imaginar, analisar esses tipos de experiências pode ficar bastante
complicado. Felizmente, podemos ampliar o modelo ANOVA que encontramos nos
dois capítulos anteriores para lidar com essas situações mais complicadas. Quando
usamos ANOVA para analisar uma situação em que existem duas ou mais variáveis
independentes, às vezes é chamado de ANOVA fatorial; no entanto, os nomes
específicos associados a diferentes ANOVAs refletem o design experimental que eles
estão sendo usados para analisar (ver Jane Superbrain Box 13.1). Esta seção amplia o
modelo ANOVA unidirecional para o caso fatorial (especificamente quando há duas
variáveis independentes). Nos capítulos subsequentes, analisaremos projetos de
medidas repetidas, projetos fatoriais de medidas repetidas e, finalmente, projetos
mistos.
Nomeando ANOVAs
ANOVA pode ser bastante confuso porque parece haver muitos deles. Quando você lê
artigos de pesquisa, muitas vezes você encontrará frases como 'uma ANOVA
independente de duas vias', ou 'uma ANOVA de três medidas repetidas' foi conduzida
'. Esses nomes podem parecer confusos, mas são bastante fáceis se você os derrubar.
Todas as ANOVAs têm duas coisas em comum: envolvem alguma quantidade de
variáveis independentes, e essas variáveis podem ser medidas usando as mesmas
entidades ou diferentes. Se as mesmas entidades forem usadas, normalmente usamos
o termo medidas repetidas e se diferentes entidades forem usadas, usamos o termo
independente. Quando existem duas ou mais variáveis independentes, é possível que
algumas variáveis usem as mesmas entidades enquanto outras usam entidades
diferentes. Neste caso, usamos o termo mix. Quando chamamos uma ANOVA, estamos
simplesmente contando ao leitor quantas variáveis independentes usamos e como elas
foram medidas. Em geral, poderíamos chamar uma ANOVA:
Ao lembrar isso, você pode entender o nome de qualquer ANOVA que você enfrenta.
Observe esses exemplos e tente descobrir quais variáveis foram usadas e como elas
foram medidas:
Por exemplo, quando encontramos uma regressão múltipla no Capítulo 8 vimos que
este modelo foi escrito como (veja a equação (8.6)):
Neste modelo, as variáveis Alta e Baixa eram variáveis dummy (isto é, variáveis que
podem levar apenas valores de 0 ou 1). No nosso exemplo atual, temos duas variáveis:
gênero (masculino ou feminino) e álcool (nenhum e 4 litros). Podemos codificar cada
um deles com zeros e outros (por exemplo, podemos codificar o gênero como 0 =
masculino, 1 = feminino, e podemos codificar a variável álcool como 0 = nenhum, 1 = 4
copos). Poderíamos então copiar diretamente o modelo que possuímos na ANOVA
unidirecional:
A questão é: como codificamos o termo de interação? Vimos como fazer isso na Seção
10.3. O termo de interação representa o efeito combinado de álcool e gênero; para
obter qualquer termo de interação na regressão, você simplesmente multiplica as
variáveis envolvidas. É por isso que você vê os termos de interação escritos como
gênero × álcool, porque em termos de regressão, a variável de interação literalmente
são as duas variáveis multiplicadas entre si. A Tabela 13.2 mostra as variáveis
resultantes para a regressão (note que a variável de interação é simplesmente o valor
da variável dummy de gênero multiplicada pelo valor da variável dummy de álcool).
Assim, por exemplo, um macho que recebe 4 litros de álcool teria um valor de 0 para a
variável de gênero, 1 para a variável de álcool e 0 para a variável de interação. O grupo
significa que para as várias combinações de gênero e álcool também estão incluídos,
porque eles serão úteis no devido tempo.
Para descobrir o que os valores b representam neste modelo, podemos fazer o mesmo
que fizemos para o teste t e ANOVA unidirecional; ou seja, veja o que acontece
quando inserimos valores de nossos preditores (gênero e álcool). Para começar, vamos
ver o que acontece quando olhamos para homens que não tinham álcool. Neste caso,
o valor do gênero é 0, o valor do álcool é 0 e o valor da interação também é 0. O
resultado que prevemos (como com ANOVA unidirecional) é a média deste grupo
(66.875), então nosso modelo se torna:
Então, b2 no modelo representa a diferença entre não ter álcool e 4 litros nos homens.
Em geral, é o efeito do álcool na categoria base de gênero (ou seja, a categoria de
gênero codificada com 0, neste caso, homens).
Finalmente, podemos observar mulheres com 4 litros de álcool. Neste caso, a variável
de gênero é 1, a variável de álcool é 1 e a variável de interação também é 1. Também
podemos substituir b0, b1 e b2, pelo que agora sabemos que eles representam. O
resultado é a média para as mulheres que tiveram 4 litros. Portanto, a equação torna-
se:
FIGURA 13.2 Destruir o que representa uma interação
Agora que temos uma boa compreensão conceitual da ANOVA fatorial como uma
extensão da idéia básica de um modelo linear, voltaremos nossa atenção para alguns
cálculos específicos que vão nos bastidores. O motivo para isso é que ele deve ajudá-lo
a entender o que significa a saída da análise.
ANOVA de dois sentidos é conceitualmente muito semelhante à ANOVA unidirecional.
Basicamente, ainda encontramos a soma total de erros quadrados (SST) e dividimos
essa variância em variância que pode ser explicada pela experiência (SSM) e variância
que não pode ser explicada (SSR). No entanto, na ANOVA de dois sentidos, a variância
explicada pelo experimento é constituída por não uma manipulação experimental, mas
duas. Portanto, quebramos a soma dos quadrados em variância explicada pela
primeira variável independente (SSA), variância explicada pela segunda variável
independente (SSB) e variância explicada pela interação dessas duas variáveis ( SS AxB ) -
veja Figura 13.3.
Começamos da mesma maneira que fizemos por uma ANOVA de sentido único. Ou
seja, calculamos a quantidade de variabilidade entre os escores quando ignoramos a
condição experimental a partir da qual eles vieram. Lembre-se de ANOVA unidirecional
(equação (11.3)) que a SST é calculada usando a seguinte equação:
A grande média é a média de todas as pontuações (calculamos isso acima como 58.33)
e n é o número de pontuações em cada grupo (ou seja, o número de participantes em
cada um dos seis grupos experimentais, oito neste caso). Portanto, a equação torna-se:
Para calcular a variância explicada pela primeira variável independente (neste caso,
gênero), precisamos agrupar as pontuações de acordo com o gênero a que pertencem.
Então, basicamente, ignoramos a quantidade de bebida que ficou bêbada, e nós
apenas colocamos todas as pontuações masculinas em um grupo e todas as
pontuações femininas em outra. Assim, os dados serão semelhantes à Figura 13.4
(note que a primeira caixa contém as três colunas femininas da nossa tabela original e
a segunda caixa contém as colunas masculinas).
Posteriormente, podemos aplicar a equação para o modelo de soma de quadrados que
usamos para calcular a soma geral do modelo dos quadrados:
Podemos então aplicar a mesma equação para o modelo de soma de quadrados que
usamos para a soma geral do modelo dos quadrados e para o efeito principal do
gênero:
Os graus de liberdade para este SS serão o número de grupos utilizados menos 1 (ver
Seção 11.2.4.). Utilizamos três grupos e, portanto, df = 2. Para resumir, o efeito
principal do álcool compara os meios dos grupos sem álcool, 2-pintas e 4-pintas
(independentemente de se os resultados são de homens ou mulheres).
O estágio final é calcular a quantidade de variação explicada pela interação das duas
variáveis. A maneira mais simples de fazer isso é lembrar que o SSM é composto por
três componentes (SSA, SSB e SSA × B). Portanto, dado que conhecemos SSA e SSB,
podemos calcular o termo de interação usando a subtração:
Os graus de liberdade podem ser calculados da mesma forma, mas também são
produto dos graus de liberdade para os principais efeitos (qualquer método funciona):
Os graus de liberdade para cada grupo serão inferiores ao número de pontuações por
grupo (ou seja, 7). Portanto, se adicionamos os graus de liberdade para cada grupo,
obtemos um total de 6 × 7 = 42.
Os índices F
Cada efeito em uma ANOVA de dois sentidos (os dois efeitos principais e a interação)
tem sua própria relação F. Para calcular estes, devemos primeiro calcular os quadrados
médios para cada efeito, tomando a soma dos quadrados e dividindo pelos respectivos
graus de liberdade (pense na seção 11.2.6.). Também precisamos dos quadrados
médios para o termo residual. Então, para este exemplo, teríamos quatro quadrados
médios calculados da seguinte forma:
A ANOVA fatorial é novamente uma extensão do modelo linear para que todas as
fontes de viés potencial (e medidas contrárias) discutidas no Capítulo 5 sejam
aplicáveis (por exemplo, redução de polarização na Seção 5.4). Se você violou a
suposição de homogeneidade de variância, então você pode tentar implementar
correções com base no procedimento Welch que foi descrito no capítulo anterior. No
entanto, isso é bastante técnico, o SPSS não o faz, e se você tiver algo mais complicado
do que um design 2 × 2, então, seria menos doloroso cobrir seu corpo em cortes de
papel e banhar-se em molho de pimenta (ver Algina & Olejnik, 1984). Uma solução
prática é inicializar os testes post hoc para que estes sejam robustos. Isso não ajudará
os bits principais da ANOVA (testes F): existem versões robustas da ANOVA fatorial,
mas o SPSS não as faz diretamente e você terá que investigar um pacote chamado R
em vez disso (Field et al., 2012).
Os passos na realização de uma ANOVA fatorial são os mesmos que para a ANOVA
unidirecional, então consulte a Figura 11.9 como um guia.
AUTO-TESTE - Use o construtor de gráfico para traçar um gráfico de linha (com barras
de erro) da atratividade da data com consumo de álcool no eixo x e linhas coloridas
diferentes para representar machos e fêmeas.
Depois de ter criado as duas variáveis de codificação, você pode criar uma terceira
variável na qual colocar os valores da variável dependente. Chame essa variável
Attractiveness e use a opção Labels para dar-lhe o nome mais completo de
Attractiveness of Date. Neste exemplo, existem duas variáveis independentes e
diferentes participantes foram utilizados em cada condição: o procedimento de
ANOVA fatorial geral no SPSS foi projetado para analisar esse projeto. Para acessar a
caixa de diálogo principal, selecione
A caixa de diálogo resultante (Figura 13.6) seleciona a variável dependente Através da
lista de variáveis no lado esquerdo e arrasta-a para o espaço rotulado Variável
Dependente (ou clique em). No espaço rotulado Fator Fixo (s), precisamos colocar
quaisquer variáveis independentes relevantes para a análise. Selecione Alcohol and
Gender na lista de variáveis (para selecionar essas variáveis simultaneamente,
pressione Ctrl ou Cmd em um Mac, enquanto clica nas variáveis) e arraste-as para a
caixa Fator Fixo (ou clique em ). Existem vários outros espaços que estão disponíveis
para realizar análises mais complexas, como ANOVA de fatores aleatórios (os leitores
interessados devem consultar Jackson & Brashers, 1994) e ANCOVA fatorial, que
estende os princípios descritos no início deste capítulo para incluir uma covariável
(como no capítulo anterior).
Interações gráficas
Uma vez que as variáveis relevantes foram selecionadas, você pode clicar
para acessar a caixa de diálogo na Figura 13.7. Esta caixa permite que você selecione
gráficos de linha de seus dados e estes gráficos são muito úteis para interpretar os
efeitos de interação (no entanto, realmente devemos traçar gráficos dos meios antes
que os dados sejam analisados). Temos apenas duas variáveis independentes, e o
gráfico mais útil é aquele que mostra a interação entre essas variáveis (o gráfico que
exibe níveis de uma variável independente contra a outra). Neste caso, o gráfico de
interação nos ajudará a interpretar o efeito combinado do gênero e do consumo de
álcool. Selecione Álcool na lista de variáveis no lado esquerdo da caixa de diálogo e
arraste-o para o espaço denominado Eixo horizontal (ou clique em ). No espaço
denominado Separar Linhas, coloque a variável independente restante, Gênero. Não
importa qual a maneira em que as variáveis são plotadas; você deve usar seu critério
quanto a qual forma o gráfico mais sensível. Quando você moveu as duas variáveis
independentes para a caixa apropriada, clique e este gráfico será adicionado à
lista na parte inferior da caixa. Você pode traçar toda uma variedade de gráficos, e se
você tivesse uma terceira variável independente, você teria a opção de traçar gráficos
diferentes para cada nível daquela terceira variável, especificando uma variável sob o
título Placas separadas. Quando você terminar de especificar gráficos, clique em
para retornar à caixa de diálogo principal.
Contrastes
Vimos no Capítulo 11 que é útil acompanhar ANOVA com contrastes que quebram os
principais efeitos e nos dizem onde estão as diferenças entre os grupos. Para ANOVA
unidirecional, o SPSS possui um procedimento para inserir códigos que definem os
contrastes que queremos fazer. No entanto, para ANOVA de duas vias, não existe tal
facilidade (embora possa ser feita usando sintaxe - veja Oliver Twisted) e, em vez disso,
estamos restritos a fazer um dos vários contrastes padrão. Esses contrastes padrão são
descritos na Tabela 11.6.
Podemos usar contrastes padrão para este exemplo. O efeito do gênero tem apenas
dois níveis, portanto, não precisamos de contrastes para esse efeito principal. O efeito
do álcool tem três níveis: nenhum, 2 pintas e 4 pintas. Podemos selecionar um
contraste simples para esta variável e usar a primeira categoria como categoria de
referência. Isso compararia o grupo de 2 pinos no grupo sem álcool e, em seguida,
compare a categoria de 4 pinos ao grupo sem álcool. Como tal, os grupos de álcool
ficariam em comparação com o grupo sem álcool. Podemos também selecionar um
contraste repetido. Isso compararia o grupo de 2 pintas com o não álcool e, em
seguida, o grupo de 4 pintas para o grupo de 2 pinos (para que ele se mova através dos
grupos que comparam cada grupo com o anterior). Mais uma vez, isso pode ser útil.
Podemos também fazer um contraste de Helmert, que compara cada categoria em
relação a todas as categorias subseqüentes, então, neste caso, compararia o grupo
sem álcool com as categorias restantes (isto é, todos os grupos que consumiram
álcool) e depois passaria para o 2 -pintar categoria e comparar isso com a categoria de
4-pintas. Qualquer um destes seria bom, mas eles nos dão contrastes apenas para os
principais efeitos. Na realidade, na maioria das vezes queremos contrastes para o
nosso termo de interação, e eles só podem ser obtidos através da sintaxe (parece que
você pode ter que olhar para Oliver Twisted, afinal).
Para obter contrastes pelo efeito principal do álcool, clique na caixa de diálogo
principal. Utilizamos a caixa de diálogo Contraste antes na Seção 12.4.5., Então
consulte novamente essa seção para ajudá-lo a selecionar um contraste Helmert para
a variável álcool. Uma vez que os contrastes foram selecionados (Figura 13.8), clique
em para retornar à caixa de diálogo principal.
A caixa de diálogo para testes post hoc é obtida clicando na caixa de diálogo principal
(Figura 13.9). A variável Sexo tem apenas dois níveis e, portanto, não precisamos
selecionar testes post hoc para essa variável (porque quaisquer efeitos significativos
podem refletir apenas a diferença entre machos e fêmeas). No entanto, havia três
níveis da variável Álcool (sem álcool, 2 litros e 4 pintas); portanto, podemos realizar
testes post hoc (embora lembre-se que, normalmente, você realizaria contrastes ou
testes post hoc, e não ambos). Primeiro, você deve selecionar a variável Álcool na caixa
denominada Fatores e transferi-la para a caixa rotulada Testes pós-atendimento para:
Minhas recomendações para as quais os procedimentos ad hoc para usar estão na
Seção 11.5 (e não quero repetir-me). Basta dizer que você deve selecionar aqueles na
Figura 13.9. Clique em para retornar à caixa de diálogo principal.
Clique em para ativar a mesma caixa de diálogo Opções que vimos no capítulo
anterior (as opções são explicadas em Jane Superbrain Box 12.3). O principal é obter
meios marginais estimados ao transferir todos os efeitos para a caixa denominada
Exibir Meios para (Figura 13.10). Algumas pessoas selecionarão Testes de
Homogeneidade para produzir o teste de Levene (Seção 5.3.3.2). Você também pode
selecionar se deseja que o SPSS calcule o Beta parcial quadrado para você (consulte a
Seção 12.7).
Tal como acontece com qualquer ANOVA, a caixa de diálogo principal contém o botão
, que permite selecionar intervalos de confiança de inicialização para os meios
marginais estimados, descritivos e testes posteriores, mas não o teste F principal. O
principal uso disso é se você planeja analisar os testes post hoc, o que nós somos,
então selecione as opções descritas na Seção 5.4.3.
Uma vez que essas opções foram selecionadas, clique em para retornar à
caixa de diálogo principal, depois clique em executar a análise.
Saída da ANOVA fatorial
Teste de Levene
A saída 13.3 é a parte mais importante da saída porque nos diz se alguma das variáveis
independentes teve efeito na variável dependente. As coisas importantes a serem
observadas na tabela são os valores de significância das variáveis independentes. A
primeira coisa a notar é que existe um efeito principal importante do álcool (porque o
valor de significância é inferior a 0,05), indicando que a quantidade de álcool
consumida afetou significativamente quem o participante tentaria conversar. Isso
significa que, em geral, quando ignoramos se o participante era masculino ou
feminino, a quantidade de álcool influenciou a seleção de seus companheiros. A
melhor maneira de ver o que isso significa é olhar para um gráfico de barras da
atratividade média em cada nível de álcool (ignorar o gênero completamente). Este
gráfico traça os meios que calculamos na Seção 13.2.5.2.
OUTPUT 13.3
A Figura 13.11 mostra que, quando você ignora o gênero, a atratividade geral do
companheiro selecionado é muito similar quando nenhum álcool já ficou bêbado e
quando 2 pintas foram bebidos (os meios desses grupos são aproximadamente iguais).
Portanto, esse efeito significativo provavelmente refletirá a queda na atratividade dos
companheiros selecionados quando 4 litros estiverem bêbados. Esta descoberta
parece indicar que uma pessoa está disposta a aceitar um companheiro menos
atraente após 4 pintas.
A próxima parte da Saída 13.3 nos informa sobre o principal efeito do gênero. Desta
vez, a relação F não é significante (p = 0,161). Esse efeito significa que, em geral,
quando ignoramos a quantidade de álcool que havia bebido, o gênero do participante
não influenciou a atratividade do parceiro que o participante selecionou. Em outras
palavras, sendo outras coisas iguais, homens e mulheres selecionaram companheiros
igualmente atraentes. O gráfico de barras (que você esperava produzir para a auto-
prova) da atratividade média dos companheiros para homens e mulheres (ignorando a
quantidade de álcool consumida) revela o significado desse efeito principal. A Figura
13.12 traça os meios que calculamos na Seção 13.2.5.1. Este gráfico mostra que a
atratividade média dos parceiros de participantes do sexo masculino e feminino foi
bastante similar (os meios são diferentes em apenas 4%). Portanto, esse efeito não
significativo reflete o fato de que a atratividade média era semelhante. Podemos
concluir que, sendo outras coisas iguais, homens e mulheres escolhem parceiros
igualmente atraentes.
Finalmente, a Saída 13.3 nos informa sobre a interação entre o efeito do gênero e o
efeito do álcool. O valor F é altamente significativo. O que isso realmente significa é
que o efeito do álcool na seleção do parceiro foi diferente para os participantes do
sexo masculino do que para as fêmeas. A saída SPSS inclui um gráfico que pedimos
(veja a Figura 13.7) que nos diz algo sobre a natureza desse efeito de interação (Figura
13.13 é uma versão mais agradável do gráfico em sua saída). Este gráfico traça os
meios marginais estimados, que você pode encontrar (juntamente com os intervalos
de confiança do bootstrap) na saída 13.4. A Figura 13.13 mostra que, para as mulheres,
o álcool tem muito pouco efeito: a atratividade de seus parceiros selecionados é
bastante estável nas três condições (como mostra a linha quase horizontal). No
entanto, para os homens, a atratividade de seus parceiros é estável quando apenas
uma pequena quantidade foi bebida, mas diminui rapidamente quando mais está
bêbado. A interação nos diz que o álcool tem poucos efeitos sobre a seleção do
parceiro até que 4 pintas tenham sido bebidos e que o efeito do álcool seja
predominante apenas em participantes do sexo masculino. Em suma, as mulheres
mantêm altos padrões na seleção de seus companheiros, independentemente do
álcool, enquanto os homens têm algumas cervejas e tentam se acasalar com qualquer
coisa nas pernas J. Este exemplo ilustra um ponto importante porque concluímos
anteriormente que o álcool afetou significativamente o quão atraente um
companheiro foi selecionado (o efeito principal do álcool); no entanto, o efeito de
interação nos diz que isso é verdade apenas em homens (as fêmeas não são afetadas).
Em geral, você não deve interpretar os principais efeitos na presença de um efeito de
interação significativo envolvendo esse efeito principal.
Contrastes
A saída 13.5 mostra os resultados do nosso contraste Helmert no efeito do álcool. Isso
nos ajuda a quebrar o efeito do álcool (na realidade, não analisaremos esse efeito
porque a interação envolvendo álcool foi significativa). O topo da tabela mostra o
contraste para Nível 1 vs. Mais tarde, que neste caso significa o grupo sem álcool em
comparação com os dois grupos de álcool. Isso prova se a média do grupo sem álcool
(63.75) é diferente da média dos grupos de 2 pinos e 4-pintas combinados ((64,69 +
46,56) / 2 = 55,625). Esta é uma diferença de 8.125 (63.75 - 55.63), que tanto a
Estimativa de Contraste como a Diferença na tabela nos dizem. O importante a ser
observado é o valor de Sig., Que nos diz se essa diferença é significativa. É, porque Sig.
é .006. Também nos contamos o intervalo de confiança para essa diferença e, por não
cruzar zero, podemos ter certeza de que, assumindo que esta amostra é uma das 95
de 100 que produz um intervalo de confiança contendo o valor verdadeiro da
diferença, a diferença real é mais do que zero (entre 2,49 e 13,76, para ser preciso).
Então, podemos concluir que o efeito do álcool é que qualquer quantidade de álcool
reduz a atratividade das datas selecionadas em comparação com quando o álcool não
é bebido. Claro que isso é enganador porque, de fato, os meios para os grupos sem
álcool e 2-pintas são bastante semelhantes (63,75 e 64,69), então 2 litros de álcool não
reduzem a atratividade das datas selecionadas. A razão pela qual a comparação é
significativa é que está testando o efeito combinado de 2 e 4 pintas, e porque 4 pintas
têm um efeito tão drástico que reduz a média geral. Este exemplo mostra por que você
precisa ter cuidado com a forma como você interpreta esses contrastes: você também
deve ter um olhar sobre o contraste restante.
A parte inferior da tabela mostra o contraste para Nível 2 versus Nível 3, que neste
caso significa o grupo de 2 pintas em comparação com o grupo de 4 pintas. Isso prova
se a média do grupo de 2 pintas (64.69) é diferente da média do grupo de 4-pintas
(46.56). Esta é uma diferença de 18.13 (64.69 - 46.56), que tanto a Estimativa de
Contraste quanto a Diferença na tabela nos dizem. Mais uma vez, o importante a ser
observado é o valor de Sig., que nos diz se essa diferença é significativa. É, porque Sig.
é .000 na tabela, que é inferior a .05. Também nós contamos o intervalo de confiança
para essa diferença e porque não é igual a zero, assumindo que esse intervalo de
confiança é um dos 95 de 100 que contém o valor verdadeiro da diferença, a diferença
real é mais do que zero (entre 11,62 e 24,63, para ser preciso). Isso nos diz que ter 4
pintas reduziu significativamente a atratividade das datas selecionadas em
comparação com apenas 2 pintas.
Análise de efeitos simples
Uma técnica chamada análise de efeitos simples pode ser usada para quebrar os
efeitos de interação. Esta análise analisa basicamente o efeito de uma variável
independente em níveis individuais da outra variável independente. Assim, por
exemplo, em nossos dados de cerveja, podemos fazer uma análise de efeitos simples,
analisando o efeito do gênero em cada nível de álcool. Isso significaria levar a
atratividade média da data selecionada pelos homens e compará-la com as mulheres
após as bebidas, depois fazer a mesma comparação para 2 pintas e, finalmente, para 4
pintas. Outra maneira de ver isso é dizer que comparamos cada triângulo com o círculo
correspondente na Figura 13.13: com base no gráfico, podemos esperar não encontrar
nenhuma diferença depois de nenhum álcool e após 2 pintas (em ambos os casos, o
triângulo e o círculo estão localizados em aproximadamente a mesma posição), mas
esperamos uma diferença após 4 pintas (porque o círculo e o triângulo estão bastante
distantes) . A maneira alternativa de fazê-lo seria comparar a atratividade média após
não álcool, 2 pintas e 4 pintas para os homens e, em seguida, em uma análise
separada, faça o mesmo, mas para as mulheres. (Esta análise seria como fazer uma
ANOVA unidirecional sobre o efeito do álcool nos homens e, em seguida, fazer uma
ANOVA de sentido único diferente para o efeito do álcool nas mulheres). Essas análises
não podem ser executadas através das caixas de diálogo usuais, mas eles podem ser
executados usando sintaxe - veja SPSS Dica 13.1.
Os testes hoc hoc de Bonferroni (Saída 13.7) quebram o principal efeito do álcool e
podem ser interpretados como se uma ANOVA unidirecional tivesse sido conduzida na
variável Álcool (ou seja, os efeitos relatados para o álcool são colapsados em relação
ao gênero). Os testes mostram (tanto pelo significado quanto se os intervalos de
confiança do bootstrap cruzam a zero) que, quando os participantes tinham bebido
sem álcool ou 2 litros de álcool, eles selecionaram companheiros igualmente
atraentes, p = 1.00 (este é o máximo que p pode ser, o que reflete o fato de que os
meios são quase idênticos). No entanto, depois de 4 pinos terem sido consumidos, os
participantes selecionaram parceiros significativamente menos atraentes do que após
os dois copos (p <0,001) e sem álcool (p <0,001). O teste REGWQ (Saída 13.8) confirma
que os meios das condições de placebo e 2-pints eram iguais, enquanto a média do
grupo de 4-pintas era diferente. Deve-se notar novamente que normalmente não
interpretaremos esses testes post hoc porque os principais efeitos não são
interessantes quando existe uma interação significativa envolvendo esse efeito
principal (como existe aqui). Em resumo, devemos concluir que o álcool tem um efeito
sobre a atratividade dos companheiros selecionados. Em geral, após uma dose
relativamente pequena de álcool (2 pintas), os seres humanos ainda estão
incontrolados em seus julgamentos e os níveis de atratividade dos parceiros escolhidos
são consistentes com um grupo controle (sem álcool consumido). No entanto, após
uma maior dose de álcool, a atratividade dos companheiros escolhidos diminui
significativamente. Este é o efeito de cerveja-goggles! Mais interessante, a interação
mostra uma diferença de gênero no efeito cerveja-óculos. Especificamente, parece
que os homens são significativamente mais propensos a escolher parceiros menos
atraentes quando embebidos. As mulheres, em comparação, conseguem manter seus
padrões apesar de estarem bêbadas. O que ainda não sabemos é se as mulheres se
tornarão suscetíveis ao efeito de óculos de cerveja em doses mais elevadas de álcool.
ANOVA Fatorial
ANOVA independente de duas vias compara vários meios quando existem duas
variáveis independentes e diferentes entidades foram usadas em todas as condições
experimentais. Por exemplo, se você quisesse saber se diferentes métodos de ensino
funcionavam melhor para diferentes assuntos, você poderia levar estudantes de
quatro cursos (Psicologia, Geografia, Administração e Estatística) e atribuí-los ao
ensino baseado em conferências ou baseado em livros. As duas variáveis são o curso
eo método de ensino. O resultado pode ser a marca de fim de ano (como uma
porcentagem).
Na tabela rotulada Tests of Between-Subjects Effects, veja a coluna intitulada Sig. para
todos os principais efeitos e interações; se o valor for inferior a 0,05, o efeito é
significativo.
Se você interpretar os efeitos principais, consulte os testes post hoc para ver quais
grupos diferem: significância é mostrada pelos valores nas colunas rotuladas Sig.
menor que 0,05 e intervalos de confiança do bootstrap que não contêm zero.
Teste os mesmos pressupostos do que para qualquer modelo linear (ver Capítulo 5).
Como vimos em capítulos anteriores (por exemplo, seção 12.7), podemos obter o SPSS
para produzir o Beta parcial ao quadrado, η2. No entanto, você é bem informado, por
razões explicadas nessas outras seções, para usar omega quadrado (ω2). O cálculo de
ômega quadrado torna-se um pouco mais pesado em projetos fatoriais ("um pouco" é
uma das minhas subentendências características). Howell (2012), como sempre, faz
um trabalho maravilhoso de explicar as complexidades de tudo (e tem uma ótima
tabela que resume os vários componentes para uma variedade de situações).
Condensando tudo isso, vou dizer que precisamos primeiro calcular um componente
de variância para cada um dos efeitos (os dois efeitos principais e o termo de
interação) e o erro, e depois usá-los para calcular os tamanhos de efeitos para cada
um. Se chamamos o primeiro efeito principal A, o segundo efeito principal B e o efeito
de interação A × B, então os componentes de variância para cada um deles são
baseados nos quadrados médios de cada efeito e nos tamanhos de amostra em que se
baseiam:
Também precisamos estimar a variabilidade total e esta é apenas a soma dessas outras
variáveis e o quadrado médio residual:
O tamanho do efeito é então simplesmente a estimativa de variância para o efeito em
que você está interessado, dividido pela estimativa de variância total:
Para tornar esses valores comparáveis a r podemos levar a raiz quadrada, o que nos dá
efeitos tamanhos de .59 para álcool, .09 para gênero e .45 para o termo de interação.
Como tal, os efeitos do álcool e a interação são bastante amplos, mas o efeito do
gênero, que não foi significativo na análise principal, é muito pequeno, de fato (quase
zero, de fato). Também é possível calcular os tamanhos de efeitos para a nossa análise
de efeitos simples (se você ler a Seção 13.5.4.). Esses efeitos têm 1 grau de liberdade
para o modelo (o que significa que eles estão comparando apenas duas coisas) e
nestas situações F pode ser convertido em r usando a seguinte equação (que apenas
usa a relação F e os graus de liberdade residuais):
Olhando para a Dica 13.1 do SPSS, podemos ver que obtivemos razões F de 1.88, 0.92
e 23.05 para os efeitos do gênero sem álcool, 2 litros e 4 pintas, respectivamente. Para
cada um destes, os graus de liberdade eram 1 para o modelo e 42 para o residual.
Portanto, obtemos os seguintes tamanhos de efeito:
Portanto, o efeito do gênero é muito pequeno tanto em álcool como em 2 litros, mas
torna-se grande em 4 litros de álcool.
Tal como acontece com as outras ANOVAs que encontramos, devemos relatar os
detalhes da relação F e os graus de liberdade a partir dos quais foi calculado. Para os
efeitos do álcool e da interação álcool x gênero, os graus de liberdade modelo foram
dfM = 2, mas para o efeito do gênero os graus de a liberdade era apenas dfM = 1. Para
todos os efeitos, os graus de liberdade para os resíduos eram dfR = 42. Podemos,
portanto, relatar os três efeitos dessa análise da seguinte maneira:
Vimos no Capítulo 1 que esse tipo de design possui várias vantagens; No entanto, no
Capítulo 11, vimos que a precisão do teste F na ANOVA depende do pressuposto de
que os escores em diferentes condições são independentes (ver Seção 11.3). Quando
são utilizadas medidas repetidas, esta suposição é violada: os resultados obtidos em
diferentes condições experimentais provavelmente estarão relacionados porque eles
são provenientes das mesmas entidades. Como tal, o teste F convencional não terá
precisão. A relação entre os escores em diferentes condições de tratamento significa
que temos que fazer uma suposição adicional; de forma simplista, assumimos que a
relação entre pares de condições experimentais é semelhante (ou seja, o nível de
dependência entre condições experimentais é aproximadamente igual). Esta suposição
é chamada de suposição de esfericidade, que, confie em mim, é uma dor na
extremidade para se pronunciar quando você está dando palestras de estatísticas às 9
da manhã em uma segunda-feira.
A suposição de esfericidade
A suposição de esfericidade pode ser comparada à hipótese de homogeneidade de
variância na ANOVA entre grupos. A esfericidade (denotada por ε e às vezes referida
como circularidade) é uma condição mais geral da simetria composta. A simetria do
composto é verdadeira quando ambas as variâncias em todas as condições são iguais
(isto é o mesmo que a homogeneidade da hipótese de variância em projetos entre
grupos) e as covariâncias entre pares de condições são iguais. Então, assumimos que a
variação dentro das condições experimentais é bastante similar e que nenhuma das
duas condições é mais dependente do que outras duas. Embora a simetria composta
mostrou ser uma condição suficiente para ANOVA usando dados de medidas repetidas,
não é uma condição necessária. A esfericidade é uma forma menos restritiva de
simetria composta e refere-se à igualdade de variâncias das diferenças entre os níveis
de tratamento. Então, se você tomasse cada par de níveis de tratamento e calculasse
as diferenças entre cada par de pontuação, então é necessário que essas diferenças
tenham variâncias aproximadamente iguais. Como tal, você precisa de pelo menos três
condições para que a esfericidade seja um problema.
A esfericidade pode ser avaliada usando o teste de Mauchly, que testa a hipótese de
que as variações das diferenças entre as condições são iguais. Portanto, se a estatística
de teste de Mauchly é significativa (ou seja, tem um valor de probabilidade inferior a
0,05), concluímos que existem diferenças significativas entre as variâncias de
diferenças e, portanto, a condição de esfericidade não é atendida. Se, no entanto, a
estatística de teste de Mauchly não é significativa (ou seja, p> .05), então é razoável
concluir que as variações de diferenças são aproximadamente iguais. Então, em suma,
se o teste de Mauchly é significativo, então devemos desconfiar dos Razões F
resultantes. No entanto, como qualquer teste de significância, o teste de Mauchly
depende do tamanho da amostra: em amostras grandes, pequenos desvios da
esfericidade podem ser significativos e, em amostras pequenas, grandes violações
podem ser não significantes (ver Jane Superbrain Box 5.5).
Fazemos a mesma coisa em um projeto de medidas repetidas, exceto porque, por ter
submetido as entidades a mais de uma condição experimental, estamos interessados
na variação não dentro de um grupo de entidades (como na ANOVA independente),
mas dentro de uma entidade. Portanto, usamos a mesma equação, mas adapte-a para
analisar os participantes e não os grupos. Então, se chamarmos essa soma de
quadrados SSW (para participante SS), poderíamos escrevê-lo como:
Os graus de liberdade para cada pessoa são n - 1 (isto é, o número de condições menos
1). Para obter os graus de liberdade totais, adicionamos o dfs para todos os
participantes. Assim, com oito participantes (celebridades) e quatro condições (ou
seja, n = 4), existem 3 graus de liberdade para cada celebridade e 8 × 3 = 24 graus de
liberdade no total.
Para SSM, os graus de liberdade (dfM) são menos do que o número de coisas usadas
para calcular a soma dos quadrados. Calculamos a soma de erros quadrados usando
quatro meios, portanto, os graus de liberdade serão 3. Então, como com ANOVA
independente, os graus de liberdade do modelo são sempre o número de condições (k)
menos 1:
MSM representa a quantidade média de variação explicada pelo modelo (por exemplo,
a variação sistemática), enquanto o MSR é um indicador da quantidade média de
variação explicada por variáveis estranhas (a variação não sistemática).
A relação F
A relação F é uma medida da proporção da variação explicada pelo modelo e a
variação explicada por fatores não sistemáticos. Pode ser calculado dividindo o
quadrado médio do modelo pelo quadrado médio residual. Você deve lembrar que
isso é exatamente o mesmo para ANOVA independente:
Este termo representa diferenças individuais entre os casos. Então, neste exemplo,
diferentes celebridades terão diferentes tolerâncias para esse tipo de alimento. Isso é
mostrado pelos meios para as celebridades na Tabela 13.2. Por exemplo, a celebridade
4 (M = 4,50) foi, em média, mais de 2 segundos mais rápida que o participante 8 (M =
6,75). A celebridade 8 tinha uma constituição melhor do que a celebridade 4. A soma
dos quadrantes entre participantes reflete essas diferenças entre os indivíduos. Neste
caso, apenas 17,39 unidades de variação nos tempos de vomitar podem ser explicadas
por diferenças individuais entre as nossas celebridades.
A análise principal
Seguindo o exemplo do bushtucker, sabemos que cada linha do editor de dados deve
representar dados de uma entidade, enquanto cada coluna representa um nível de
variável (SPSS Tip 3.2). Portanto, colunas separadas representam níveis de uma
variável de medida repetida. Como tal, os dados podem ser inseridos no editor de
dados SPSS no mesmo formato que a Tabela 14.2 (você não precisa incluir as colunas
denominadas Celebrity, Mean ou s2 porque foram incluídas apenas para me ajudar a
explicar como esta ANOVA é calculada ). Para começar, crie uma variável chamada
stick e use a caixa de diálogo Etiquetas para fornecer a esta variável o título completo
'Stick Insect'. Na próxima coluna, crie uma variável chamada testículo, e dê a esta
variável o título completo 'Teste de canguru'. O princípio agora deve ser claro: aplique-
o para criar as variáveis restantes chamadas olho ('Fish Eye') e witchetty ('Witchetty
Grub'). Esses dados também podem ser encontrados no arquivo Bushtucker.sav.
Para realizar uma ANOVA usando um design de medidas repetidas, ative a caixa de
diálogo . Definir fator (s) selecionando. Nesta caixa
de diálogo (Figura 14.6), você é solicitado a fornecer um nome para a variável dentro
do assunto (medidas repetidas). Nesse caso, a variável de medidas repetidas foi o tipo
de animal consumado no teste do bushtucker, então substitua a palavra factor1 pela
palavra Animal. O nome que você atribuiu à variável de medidas repetidas não pode
ter espaços nele. Quando você deu o nome de um fator de medidas repetidas, você
tem que dizer ao SPSS quantos níveis havia para essa variável (ou seja, quantas
condições experimentais existiam). Neste caso, havia quatro animais diferentes
comidos por cada pessoa, então entre o número 4 na caixa com o número de níveis.
Clique em ADD para adicionar esta variável à lista de variáveis de medidas repetidas.
Esta variável agora aparecerá na caixa branca na parte inferior da caixa de diálogo
como Animal (4). Se o seu projeto tiver várias variáveis de medidas repetidas, você
pode adicionar mais fatores à lista (veja o exemplo ANOVA de duas vias abaixo).
Quando você inseriu todos os fatores de medidas repetidas que foram medidos, clique
em DEFINE para ir para a caixa de diálogo principal de medidas repetidas.
A caixa de diálogo principal (Figura 14.7) possui um espaço denominado Variáveis de
dentro-assunto que contém uma lista de quatro pontos de interrogação seguidos de
um número. Esses pontos de interrogação são para as variáveis que representam os
quatro níveis da variável independente. As variáveis correspondentes a esses níveis
devem ser selecionadas e colocadas no espaço apropriado. Nós temos apenas quatro
variáveis no editor de dados, por isso é possível selecionar todas as quatro variáveis ao
mesmo tempo (clicando na variável no topo, pressionando a tecla Shift e clicando na
última variável que deseja selecionar). As variáveis selecionadas podem então ser
arrastadas para a caixa denominada Variáveis de assuntos internos (ou clique em).
Quando as quatro variáveis foram transferidas, você pode selecionar várias opções
para a análise. Existem várias opções às quais pode ser acessado com os botões ao
lado da caixa de diálogo principal. Essas opções são semelhantes às que já
encontramos.
Desenhos mistos
Se você pensou que o capítulo anterior era ruim, bem, estou prestes a lançar uma
complicação adicional na mistura. Podemos combinar medidas repetidas e projetos
independentes, e este capítulo analisa esta situação. Como se isso não fosse ruim o
suficiente, eu também vou usar isso como uma desculpa para mostrar-lhe um design
com três variáveis independentes (neste momento você deve me imaginar inclinando-
se para trás na minha cadeira, desarmado, driblando e rindo maniacamente). Uma
mistura de variáveis entre grupos e medidas repetidas é chamada de design misto.
Deve ser óbvio que você precisa de pelo menos duas variáveis independentes para
esse tipo de design, mas você também pode ter cenários mais complexos (por
exemplo, duas intergrupos e uma medida repetida, uma medida intergrupo e duas
medidas repetidas, ou mesmo duas medidas de cada). O SPSS permite testar quase
todos os projetos que você deseja, e praticamente qualquer grau de complexidade. No
entanto, os termos de interação são difíceis de interpretar com apenas duas variáveis,
então imagine o quão difícil elas são se você incluir quatro. O melhor conselho que
posso oferecer é manter três ou menos variáveis independentes se você quiser
interpretar seus termos de interação 2, e certamente não exceda quatro, a menos que
você queira dar-se uma enxaqueca.
Este capítulo passará por um exemplo de uma ANOVA mista. Não haverá nenhuma
teoria porque provavelmente já teve suficiente teoria ANOVA agora para ter uma boa
ideia do que está acontecendo (você pode ler isso como "é muito complexo para mim
e eu vou encobrir minha própria incompetência fingindo que não precisa saber sobre
isso "). Essencialmente, no entanto, como já vimos, qualquer ANOVA é um modelo
linear, então, quando temos três variáveis ou preditores independentes, simplesmente
adicionamos este terceiro preditor ao modelo linear, damos a b e lembremos também
de incluir quaisquer interações envolvendo o novo preditor. Examinaremos um
exemplo usando o SPSS e passaremos um pouco de tempo desenvolvendo sua
compreensão das interações e como dividi-las usando contrastes.
Se você já leu algum dos capítulos anteriores da ANOVA, você estará cansado de eu
escrever que ANOVA é uma extensão do modelo linear e, portanto, todas as fontes de
viés potencial (e medidas contrárias) discutidas no Capítulo 5 se aplicam (ver Seção
5.4, por exemplo). Mas, lá vai você, acabei de escrever novamente. Claro, porque os
projetos mistos incluem medidas repetidas e medidas entre grupos você tem o duplo
problema de ter que se preocupar com a homogeneidade de variância e esfericidade.
É o suficiente para fazer você irritar a tinta do polvo de inescapável desespero. Mas
não: sabemos que a falta de esfericidade é facilmente corrigida usando a correção da
Greenhouse-Geisser.
Os participantes não foram estes nove novilhos, mas 10 homens e 10 mulheres que
vieram ao evento acelerado que você criou. Ao longo da noite, eles fecharam os nove
novatos do sexo que eles normalmente namoravam. Após o tempo de 3 minutos, eles
classificaram o quanto eles gostariam de ter um encontro adequado com a pessoa
como uma porcentagem (100% = 'Eu pagaria grandes somas de dinheiro por seu
número de telefone', 0% = ‘Eu pagaria uma grande quantia de dinheiro por um bilhete
de avião para me levar o mais longe possível deles"). Como tal, cada participante
avaliou nove pessoas diferentes que variaram em sua atratividade e personalidade.
Assim, existem duas variáveis de medidas repetidas: Aparências (com três níveis,
porque a pessoa pode ser atraente, média ou feia) e Personalidade (novamente com
três níveis, porque a pessoa pode ter muito carisma, ter algum carisma ou ser
constrangedor). As pessoas que dão as avaliações podem ser masculinas ou femininas,
então devemos também incluir o gênero da pessoa que faz as avaliações (masculino ou
feminino), e isso, é claro, será uma variável entre grupos. Os dados estão na Tabela
15.1.
ANOVA mista no SPSS
O procedimento geral para ANOVA misturado é o mesmo que qualquer outro modelo
linear (ver Capítulo 8).
A Figura 15.2 mostra uma visão geral mais simples que destaca alguns dos problemas
específicos ao usar um design misto.
Inserção de dados
Para inserir esses dados no SPSS, usamos o mesmo procedimento que a ANOVA de
medidas repetidas de duas vias. Lembre-se de que cada linha no editor de dados
representa os dados de um único participante.
Se uma pessoa participar de todas as condições (neste caso, todas as pessoas que
diferem em atratividade e todas as pessoas que diferem em seu carisma), cada
condição será representada por uma coluna no editor de dados. Neste experimento,
existem nove condições experimentais e, portanto, os dados precisam ser inseridos em
nove colunas (o formato é idêntico ao da Tabela 15.1). Você também precisará criar
uma variável de codificação para inserir valores para o gênero do participante (usei 1 =
masculino, 2 = feminino).
A análise principal
Primeiro, devemos avaliar nossas variáveis de medidas repetidas, então acesse a caixa
de diálogo Definir ator (es) selecionando .
Tal como acontece com a ANOVA de medidas repetidas de duas vias (veja o capítulo
anterior), precisamos dar nomes às nossas variáveis de medidas repetidas e especificar
quantos níveis eles têm. Neste caso, existem dois fatores internos: Looks (atraente,
médio ou feio) e Charisma (carisma alto, algum carisma e bronco). Na caixa de diálogo
Definir fatores (s), substitua a palavra factor1 pela palavra Looks, digite 3 na caixa com
o número de níveis. Clique ADD em para adicionar esta variável à lista de variáveis de
medidas repetidas. Esta variável agora aparecerá na caixa branca na parte inferior da
caixa de diálogo como Looks (3). Agora, digite a palavra Carisma no espaço rotulado
como Nome do Fator de Assunto e depois, porque havia três níveis dessa variável,
digite o número 3 no espaço com o número de Níveis. Clique em ADD para incluir esta
variável na lista de fatores; aparecerá como Carisma (3). A caixa de diálogo concluída é
mostrada na Figura 15.4. Quando você inseriu os dois fatores dentro do assunto, clique
em DEFINE para ir para a caixa de diálogo principal.
No que diz respeito a outras opções, você deve selecionar os mesmos que foram
escolhidos para o exemplo no capítulo anterior (ver Seção 14.9.5.). Vale a pena
selecionar meios marginais estimados para todos os efeitos (porque esses valores o
ajudarão a entender quaisquer efeitos significativos), mas para economizar espaço,
não pedi intervalos de confiança para esses efeitos porque consideramos essa parte da
produção com algum detalhe já. Quando todas as opções apropriadas foram
selecionadas, execute a análise.
A saída inicial contém uma tabela que lista as variáveis de medidas repetidas do editor
de dados e o nível de cada variável independente que representam. A segunda tabela
contém estatísticas descritivas (média e desvio padrão) para cada uma das nove
condições, divididas de acordo com se os participantes eram do sexo masculino ou
feminino (ver Saída 15.1). Os nomes nesta tabela são os nomes que eu dei as variáveis
no editor de dados (portanto, sua saída pode diferir ligeiramente). Essas estatísticas
descritivas mostram o padrão de meios em todas as condições; usamos esses meios
para produzir os gráficos da interação de três vias.
SPSS produz uma tabela listando o teste de Levene para todas as combinações de
níveis de variáveis de medidas repetidas. A saída 15.4 mostra esta tabela, e você pode
ver isso porque todos os valores de significância são maiores do que .05 as variações
são homogêneas para todos os níveis das variáveis de medidas repetidas. Se algum
valor fosse significativo, teríamos que tentar algumas das medidas corretivas discutidas
no Capítulo 5.
Encontramos o significativo efeito principal dos looks, F (2, 36) = 423,73, p <0,001, na
saída 15.3. Este efeito nos diz que, se ignorarmos todas as outras variáveis, as
classificações eram diferentes para datas atraentes, médias e feias. A Figura 15.11
mostra os Meios marginais estimados para o efeito principal dos olhares e um gráfico
desses meios. Os níveis de aparência são rotulados como 1, 2 e 3, e é baixo para você
lembrar como você inseriu as variáveis (ou pode observar a tabela de resumo que o
SPSS produz no início da saída - veja Saída 15.1). Se você fez o mesmo que eu, o nível 1
é atraente, o nível 2 é feio e o nível 3 é médio. A partir desta tabela e trama, você pode
ver que, à medida que a atratividade diminui, a classificação média cai também.
Portanto, esse efeito principal parece refletir que os avaliadores eram mais propensos
a expressar um maior interesse em sair com pessoas atraentes do que pessoas médias
ou feias. No entanto, nós realmente precisamos olhar para alguns contrastes para
descobrir exatamente o que está acontecendo.
O resultado 15.6 mostra os contrastes que pedimos. Por enquanto, basta ver a linha
chamada Looks. Lembre-se de que fizemos um contraste simples e, portanto,
conseguimos um contraste comparando o nível 1 com o nível 3, e depois comparamos
o nível 2 com o nível 3; Por causa da ordem em que inserimos as variáveis, esses
contrastes representam atrativo em comparação com a média (nível 1 versus nível 3) e
feio em comparação com a média (nível 2 versus nível 3). Os valores de F para cada
contraste e seus valores de significância relacionados nos dizem que o principal efeito
da atratividade representou o fato de que as datas atrativas foram classificadas
significativamente acima das datas médias, F (1, 18) = 226.99, p <.001, e as datas
médias foram classificadas significativamente mais altas que as feias, F (1, 18) =
160,07, p <0,001.
Na saída 15.3 houve um efeito principal significativo do carisma, F (2, 36) = 328,25, p
<0,001. Este efeito nos diz que se ignorarmos todas as outras variáveis, as
classificações eram diferentes para pessoas altamente carismáticas, medianamente
carismáticas e maçantes. A tabela denominada Charisma na seção intitulada Meios
marginais estimados nos diz o que esse efeito significa (como mostrado na Figura
15.12 ao lado de uma trama). Novamente, os níveis de carisma são rotulados como 1,
2 e 3. Se você seguiu o que eu fiz, então o nível 1 é alto carisma, o nível 2 é obscuro eo
nível 3 é algum carisma. Este efeito principal parece refletir que, à medida que o
carisma diminui, a classificação média dos dados também cai: os avaliadores
expressaram maior interesse em sair com pessoas carismáticas do que as pessoas
comuns ou os broncos. Nós pedimos contrastes simples (a linha chamada Charisma na
Saída 15.6) e, devido à ordem em que inserimos variáveis, esses contrastes
representam alto carisma em comparação com algum carisma (nível 1 versus nível 3) e
nenhum carisma comparado a algum carisma (nível 2 vs. nível 3). Esses contrastes nos
dizem que o principal efeito do carisma é que as datas altamente carismáticas foram
classificadas significativamente mais altas do que as datas com algum carisma, F (1, 18)
= 109,94, p <0,001 e as datas com algum carisma foram classificadas significativamente
mais altas do que broncos , F (1, 18) = 227,94, p <0,001.
A interação entre gênero e aparência
O contraste para o primeiro termo de interação observa o nível 1 dos looks (atrativos)
em comparação com o nível 3 (média), comparando as pontuações masculina e
feminina. Este contraste é altamente significativo, F (1, 18) = 43,26, p <0,001,
sugerindo que o aumento do interesse em datas atraentes em comparação com as
datas de aparência média encontradas para homens é significativamente maior que
para as mulheres. Assim, na Figura 15.13, a inclinação da linha vermelha (masculino)
entre datas atraentes e datas médias é mais pronunciada do que a linha azul
comparável (mulheres). As preferências para datas atraentes, em comparação com
datas de aparência média, são maiores para homens do que para mulheres.
Aparência × interação de gênero 2: feia vs. média, sexo masculino vs.
mulher
Houve uma atratividade significativa × interação de carisma na Saída 15.3, F (4, 72) =
36,63, p <0,001. Este efeito nos diz que o perfil das avaliações em datas de diferentes
níveis de carisma foi diferente para datas atraentes, médias e feias. Podemos desfazer
essa interação utilizando os meios marginais estimados, um gráfico (use a caixa de
diálogo na Figura 15.9 para obter um áspero) e contrastes. O gráfico (Figura 15.15)
mostra a classificação média de datas de diferentes níveis de atratividade quando a
data também apresentou altos níveis de carisma (linha vermelha), algum carisma
(linha azul) e nenhum carisma (linha verde). Olhe primeiro para a diferença entre datas
atraentes e de aparência média. O interesse em datas altamente carismáticas não
muda (a linha é mais ou menos plana entre estes dois pontos), mas para datas com
algum carisma ou nenhum nível de interesse de carisma declina. Então, se você tem
muito carisma, pode fugir com uma aparência média: as pessoas ainda querem
namorar com você. Agora, veja a diferença entre datas medianas e feias. Um padrão
diferente é observado: para datas sem carisma, há pouca diferença entre pessoas feias
e de aparência média, mas para aqueles com carisma há um declínio no interesse se
você for feio. Parece que, se você é um bronco, você precisa ser realmente atraente
antes que as pessoas desejam namorar com você, mas se você é feio, depois de ter
carisma não vai ajudá-lo muito. Os contrastes na saída 15.6 separarão esses efeitos
específicos.
Olha × interação de carisma 1: atraente vs. média, alto carisma vs. algum carisma
O primeiro contraste para a análise de carisma de olhar × investiga nível 1 de aparência
(atraente) em comparação com o nível 3 de aparência (média), para o nível 1 de
carisma (carisma alto) em relação ao nível 3 de carisma (algum carisma). Isto é como
perguntar "a diferença entre alto carisma e algum carisma é o mesmo para pessoas
atraentes e pessoas de aparência média?" A melhor maneira de entender esse
contraste é focar o bit relevante do gráfico de interação na Figura 15.15, que eu
Reproduziram na parte superior esquerda da Figura 15.16. O interesse (conforme
indicado por avaliações altas) em datas atrativas foi o mesmo independentemente de
possuírem carisma alto ou médio; no entanto, para datas de aparência média, houve
mais interesse quando essa pessoa apresentava carisma alto em vez de média. O
contraste é altamente significativo, F (1, 18) = 21,94, p <0,001, e nos diz que, à medida
que as datas se tornam menos atraentes, há um declínio significativamente maior no
interesse quando o carisma é médio em comparação com quando o carisma é alto.
O contraste final aborda a questão "é a diferença entre nenhum carisma e algum
carisma o mesmo para pessoas feias e pessoas de aparência média?" Ele compara o
nível 2 de aparência (feio) com o nível 3 de aparência (média), no nível 2 de carisma
(bronco) em relação ao nível 3 de carisma (algum carisma). A parte relevante do
gráfico de interação é mostrada na parte inferior direita da Figura 15.16. Para as datas
de avaliação, as classificações foram mais altas quando tiveram algum carisma do que
quando eram difíceis, mas, por datas feias, as classificações eram aproximadamente
iguais, independentemente do nível de carisma. Esse contraste é altamente
significativo, F (1, 18) = 88.60, p <.001.
A foto para as mulheres é muito diferente. Se alguém tem altos níveis de carisma,
então não importa o que pareça, as mulheres expressarão seu interesse (a linha
vermelha é relativamente plana). No outro extremo, se a data for um sombrio, eles
não expressarão interesse neles, independentemente de quão atraentes eles (a linha
verde é relativamente plana). A única vez que a atratividade faz a diferença é quando
alguém tem uma quantidade média de carisma (a linha azul), caso em que ser atraente
aumenta o interesse e ser feio reduz-se. Dito de outra forma, as mulheres priorizam o
carisma sobre a aparência física. Mais uma vez, podemos observar alguns contrastes
para reduzir ainda mais esta nteração (Saída 15.6). Esses contrastes são semelhantes
aos da análise de carisma de aparência ×, mas agora também levam em consideração o
efeito do gênero.
Aparência × carisma × interação de gênero 1: atraente vs. média, alto
carisma versus algum carisma, sexo masculino versus feminino
Aparências × carisma × interação de gênero 2: atraente vs. média, bronco vs. algum
carisma, masculino versus feminino.
Outra maneira de ver isso é que, para datas com algum carisma, a redução do
interesse como a diminuição da atenção é quase igual em homens e mulheres (as
linhas azuis têm a mesma inclinação). No entanto, para as datas que são broncos, a
diminuição do interesse se essas datas são de aparência média e não atrativa é muito
mais dramática nos homens do que nas mulheres (a linha verde é mais íngreme para
os homens do que para as mulheres).
O terceiro contraste também foi significativo, F (1, 18) = 11,70, p = 0,003. Este
contraste compara o nível 2 de aparência (feio) com o nível 3 de aparência (média), no
nível 1 de carisma (carisma elevado) em relação ao nível 3 de carisma (alguns carisma),
em homens em comparação com mulheres. O painel inferior esquerdo da Figura 15.18
mostra os meios relevantes. Primeiro, vejamos os homens. Para os homens, à medida
que a atratividade diminui, o interesse também é interessante quando a data tem alto
carisma e quando eles têm algum carisma (as inclinações das linhas vermelha e azul
são semelhantes). Assim, independentemente do carisma, existe uma redução
semelhante no interesse, à medida que a atratividade diminui. Agora vejamos as
mulheres. A imagem é bastante diferente: quando o carisma é alto, não há declínio no
interesse à medida que a atratividade cai (a linha vermelha é plana); no entanto,
quando o carisma é menor, a atratividade da data é importante e o interesse é menor
em uma data feia do que em uma data de aparência média (a linha azul cai para
baixo).
Outra maneira de olhar para isso é que, para datas com algum carisma, a redução do
interesse como a redução de atratividade é quase igual em homens e mulheres (as
linhas azuis têm inclinações semelhantes). No entanto, para as datas que têm alto
carisma, a diminuição do interesse se essas datas são feias, em vez de média, é muito
mais dramática nos homens do que nas mulheres (a linha vermelha é mais acentuada
para os homens do que para as mulheres).
O contraste final não foi significativo, F (1, 18) = 1,33, p = 0,263. Este contraste analisa
o efeito do gênero ao comparar o nível 2 dos looks (feio) com o nível 3 dos looks
(média), no nível 2 do carisma (bronco) em relação ao nível 3 do carisma (algum
carisma). Os meios relevantes são exibidos no painel inferior direito da Figura 15.18. O
interesse em datas feias foi o mesmo, independentemente de terem algum carisma ou
foram um bronco (os pontos azul e verde estão no mesmo lugar). Para datas mais
velhas, havia mais interesse quando aquela pessoa apresentava algum carisma em vez
de ser um bronco (o ponto azul é maior do que o verde). Importante, esse padrão de
resultados é muito semelhante em machos e fêmeas.
Conclusões
Esses contrastes não nos dizem nada sobre as diferenças entre as condições atraentes
e feias, ou as condições de alto carisma e bronco, porque nunca foram comparadas.
Poderíamos reexecutivar a análise e especificar nossos contrastes de forma diferente
para obter esses efeitos. No entanto, o que é claro a partir de nossos dados é que
existem diferenças entre homens e mulheres em termos de como eles são afetados
pela aparência e personalidade das datas em potencial. Os homens parecem estar
entusiasmados com namoro com alguém atraente, independentemente da sua
personalidade tão terrível. As mulheres são quase completamente o oposto: estão
entusiasmadas com namorar com qualquer tipo de carisma, independentemente de
como elas parecem (e não são entusiasmadas com namorar pessoas sem carisma,
independentemente de quão atraentes elas parecem). A única consistência entre
homens e mulheres é que, quando há algum carisma (mas não muito), a atratividade
influencia o quanto eles estão entusiasmados com o namoro da pessoa.
O que deve ser ainda mais claro a partir deste capítulo é que, quando mais de duas
variáveis independentes são usadas na ANOVA, produz efeitos de interação complexos
que exigem uma grande concentração de interpretação (imagine o quanto seu cérebro
pulsará ao interpretar um método de quatro vias interação). Se confrontado com este
cenário particularmente desagradável, o meu melhor conselho é tomar uma
abordagem sistemática para a interpretação e os gráficos de gráficos é uma maneira
útil de prosseguir. Também é aconselhável pensar cuidadosamente sobre os contrastes
apropriados para usar para responder as perguntas que você tem sobre seus dados.
São esses contrastes que irão ajudá-lo a interpretar interações, portanto, certifique-se
de selecionar aquelas sensíveis.
Eu continuo enfatizando o fato de que os tamanhos de efeito são realmente mais úteis
quando resumem um efeito focado. Isso também me dá uma desculpa útil para
contornar as complexidades do ômega quadrado em projetos mistos (é o caminho da
loucura, eu lhe asseguro). Portanto, basta calcular os tamanhos de efeito para seus
contrastes quando você tem um design fatorial (e quaisquer efeitos principais que
comparam apenas dois grupos). A saída 15.6 mostra os valores de vários contrastes,
todos os quais têm 1 grau de liberdade para o modelo (ou seja, eles representam uma
comparação focada e interpretável) e possuem 18 graus de liberdade residuais.
Podemos usar esses F-ratios e convertê-los em um efeito tamanho r, usando uma
fórmula que encontramos antes:
Primeiro, podemos lidar com o principal efeito do gênero porque isso compara apenas
dois grupos:
Para as duas comparações que fizemos para a variável de aspecto (Saída 15.6),
obteríamos:
Portanto, ambas as comparações produziram tamanhos de efeito maciço. Para as duas
comparações que fizemos para a variável de carisma (Saída 15.6), obteríamos:
Novamente, estes são efeitos maciços. Para o carisma × interação de gênero, os dois
contrastes nos dão:
Mais uma vez, os efeitos maciços (sim, os dados são fabricados). Movendo-se para a
análise de carisma de aparência ×, obtemos quatro contrastes:
Todos esses efeitos estão na faixa média a grande. Finalmente, para a aparência ×
carisma × interação de gênero, tivemos quatro contrastes:
Como tal, os dois efeitos que eram significativos (atrativo vs. média, doloroso vs.
alguns, masculino vs. feminino e feio vs. média, alto vs. alguns, masculino vs. feminino)
renderam grandes tamanhos de efeito. Os dois efeitos que não eram significativos
cederam a tamanhos de efeitos médios.
Como você provavelmente reuniu, quando você tem mais de duas variáveis
independentes, há muitas informações para relatar. Eu mencionei algumas vezes que,
quando os efeitos de interação são significativos, não faz sentido interpretar os
principais efeitos, então você pode economizar espaço ao não denunciá-los; no
entanto, algumas revistas esperam que você as informe de qualquer maneira. Em
qualquer caso, certamente reserve o maior detalhe para os efeitos que são
fundamentais para sua principal hipótese. Supondo que queremos denunciar todos os
nossos efeitos, nós
poderia fazer algo como isto (embora não como uma lista!):
O terceiro contraste, que comparou datas feias com datas de aparência média quando
a data apresentou alto carisma comparado ao carisma médio, foi significativo, F (1, 18)
= 6,23, p = 0,22, r = 0,51. Esse contraste implica que, à medida que as datas se
tornaram menos atraentes, houve um maior declínio no interesse quando o carisma
era médio em comparação com quando era alto. O contraste final comparou datas
feias com datas de aparência média, quando a data foi um sombrio em comparação
com quando eles tiveram algum carisma. Esse contraste foi altamente significativo, F
(1, 18) = 88.60, r = .91, e sugere que, à medida que as datas se tornaram menos
atraentes, o declínio no interesse nas datas com um pouco de carisma foi
significativamente maior do que para os broncos.
Na ciência, muitas vezes precisamos medir coisas que não podem ser medidas
diretamente (as chamadas variáveis latentes). Por exemplo, os pesquisadores de
gerenciamento podem estar interessados em medir o "Burnout", que é quando
alguém que trabalhou muito em um projeto (um livro, por exemplo) por um longo
período de tempo, de repente, ele se mostra desprovido de motivação, inspiração e
quer repetidamente dar cabeçadas em seu computador, gritando "por favor, Mike,
destrava a porta, deixe-me sair do porão, eu preciso sentir o suave calor da luz solar na
minha pele". Você não pode medir o Burnout diretamente: ele tem muitas facetas. No
entanto, você pode medir diferentes aspectos do Burnout: você pode ter uma idéia de
motivação, níveis de estresse, se a pessoa tem idéias novas e assim por diante. Tendo
feito isso, seria útil saber se essas facetas refletem uma única variável. Dito de outra
forma, essas diferentes medidas são conduzidas pela mesma variável subjacente?
Fatores e componentes
Imagine que queríamos medir diferentes aspectos do que poderia tornar a pessoa
popular. Poderíamos administrar várias medidas que acreditamos tocar diferentes
aspectos da popularidade. Assim, podemos medir as habilidades sociais de uma pessoa
(Habilidades sociais), seu egoísmo (egoísta), quão interessantes os acham (Interesse), a
proporção de tempo que passam falando sobre a outra pessoa durante uma conversa
(Talk1), a proporção de Tempo que eles gastam falando sobre si mesmos (Talk2), e sua
propensão para mentir para as pessoas (Mentiroso). Calculamos os coeficientes de
correlação para cada par de variáveis e criamos uma matriz R. A Figura 17.2 mostra
essa matriz. Parece haver dois grupos de variáveis inter-relacionadas. Primeiro, a
quantidade que alguém fala sobre a outra pessoa durante uma conversa correlaciona-
se altamente com o nível de habilidades sociais e com o quão interessante o outro
encontra essa pessoa, e as habilidades sociais se correlacionam bem com o quanto os
outros percebem que uma pessoa é. Esses relacionamentos indicam que quanto
melhor for suas habilidades sociais, mais interessantes e falantes serão. Em segundo
lugar, a quantidade que as pessoas falam sobre si mesmas em uma conversa
correlaciona-se com o quanto eles são egoístas e quanto eles mentem. Ser egoísta
também se correlaciona com o grau em que uma pessoa conta mentiras. Em suma, as
pessoas egoístas provavelmente mentirão e falar sobre si mesmas.
A análise de fatores e PCA visam reduzir essa matriz R para baixo em um conjunto
menor de dimensões. Na análise fatorial, essas dimensões, ou fatores, são estimados a
partir dos dados e acredita-se que refletem construções que não podem ser medidas
diretamente. Neste exemplo, parece haver dois clusters que se enquadram na conta. O
primeiro "fator" parece se relacionar com a sociabilidade geral, enquanto o segundo
"fator" parece se relacionar com a maneira pela qual uma pessoa trata os outros
socialmente (podemos chamá-lo de Consideração). Pode, portanto, ser assumido que a
popularidade depende não apenas da sua capacidade de socializar, mas também de se
você é desconsiderador com os outros. A PCA, ao contrário, transforma os dados em
um conjunto de componentes lineares; não estima variáveis não medidas, apenas
transforma as medidas. Estritamente falando, então, não devemos interpretar os
componentes como variáveis não mensuradas. Apesar dessas diferenças, ambas as
técnicas procuram variáveis que se correlacionam altamente com um grupo de outras
variáveis, mas não se correlacionam com variáveis fora desse grupo.
Representação gráfica
Fatores e componentes também podem ser visualizados: você pode imaginar fatores
como sendo o eixo de um gráfico ao longo do qual traçamos variáveis. As coordenadas
de variáveis ao longo de cada eixo representam a força da relação entre essa variável e
cada fator. Num mundo ideal, uma variável deve ter uma grande coordenada para um
dos eixos e pequenas coordenadas para quaisquer outros fatores. Esse cenário
indicaria que essa variável particular dizia respeito a apenas um fator. As variáveis que
possuem coordenadas grandes no mesmo eixo são assumidas para medir diferentes
aspectos de alguma dimensão subjacente comum. A coordenada de uma variável ao
longo de um eixo de classificação é conhecida como um fator de carregamento (ou
carregamento de componentes). O fator de carga pode ser pensado como a correlação
de Pearson entre um fator e uma variável (ver Jane Superbrain Box 17.1). Pelo que
sabemos sobre a interpretação dos coeficientes de correlação (ver Seção 7.4.2.2), deve
ficar claro que, se cobrimos o fator de carga, obtemos uma medida da importância
substancial de uma determinada variável para um fator.
A Figura 17.3 mostra esse gráfico para os dados de popularidade (em que havia apenas
dois fatores). A primeira coisa a notar é que, para ambos os fatores, a linha do eixo
varia de -1 a 1, que são os limites externos de um coeficiente de correlação. Os
triângulos representam as três variáveis que possuem altas cargas fatoriais (ou seja,
uma relação forte) com fator 1 (Sociabilidade: eixo horizontal), mas têm uma baixa
correlação com o fator 2 (Consideração: eixo vertical). Por outro lado, os círculos
representam variáveis que têm altas cargas fatoriais com consideração, mas baixas
cargas com sociabilidade. Este enredo mostra o que encontramos na matriz R: o
egoísmo, a quantidade que uma pessoa fala sobre si mesma e sua propensão a mentir
contribuem para um fator que poderia ser chamado de consideração dos outros; e
quanto uma pessoa se interessa por outras pessoas, o quão interessante elas são e seu
nível de habilidades sociais contribuem para um segundo fator, a sociabilidade. Claro,
se um terceiro fator existisse dentro desses dados, ele poderia ser representado por
um terceiro eixo (criando um gráfico 3-D). Se houver mais de três fatores em um
conjunto de dados, eles não podem ser representados por um gráfico bidimensional.
Representação matemática
Os eixos da Figura 17.3, que representam fatores, são linhas retas e qualquer linha reta
pode ser descrita matematicamente por uma equação familiar. A equação (17.1) nos
lembra a equação que descreve um modelo linear. Um componente no PCA pode ser
descrito da mesma maneira. Você notará que não há intercepto na equação porque as
linhas se cruzam em zero (daí a intercepção é zero), e também não há termo de erro
porque estamos simplesmente transformando as variáveis. O bs na equação
representa as cargas.
Primeiro, note que as equações são idênticas na forma: ambos incluem todas as
variáveis que foram medidas. No entanto, os valores de b nas duas equações serão
diferentes (dependendo da importância relativa de cada variável para o componente
específico). Na verdade, podemos substituir cada valor de b com a coordenada dessa
variável no gráfico na Figura 17.3 (isto é, substituir os valores de b com as cargas de
fator). As equações resultantes são as seguintes:
Observe que, para o componente Sociability, os valores de b são altos para Talk1,
habilidades sociais e juros. Para as variáveis restantes (Talk2, Selfish e Liar), os valores
de b são muito baixos (perto de 0). Isso nos diz que três das variáveis são muito
importantes para esse componente (aqueles com valores altos de b) e três são muito
sem importância (aqueles com valores baixos de b). Vimos que esse ponto é
verdadeiro por causa do fato de que três variáveis se agrupavam altamente no gráfico
do fator (Figura 17.3). O ponto a seguir aqui é que o gráfico do fator e essas equações
representam a mesma coisa: as cargas fatoriais no enredo são simplesmente os
valores b nessas equações. Para o segundo fator, Consideração, o padrão oposto pode
ser visto: Talk2, Selfish e Mentiroso, todos têm valores altos de b, enquanto as três
variáveis restantes possuem valores de B próximos de 0. Em um mundo ideal, as
variáveis teriam muito alta b - valores para um componente e valores B muito baixos
para todos os outros componentes. Os fatores na análise fatorial não são
representados da mesma forma que os componentes. A Equação (17.4) mostra como
um fator é definido: as letras gregas representam matrizes contendo números. Se
colocarmos as letras gregas através da máquina de tradução mágica de Andy, então
podemos parar de nos preocupar com o que as matrizes contêm e se concentrar no
que representam. Na análise fatorial, as pontuações nas variáveis medidas são
previstas a partir das médias dessas variáveis, mais as pontuações de uma pessoa nos
fatores comuns (ou seja, fatores que explicam as correlações entre as variáveis)
multiplicados pelo seu fator de carregamento, mais pontuações em quaisquer fatores
únicos dentro dos dados (fatores que não podem explicar as correlações entre
variáveis).
Em certo sentido, o modelo de análise fatorial desliza o PCA na sua cabeça: no PCA,
prevemos componentes das variáveis medidas, mas na análise fatorial, prevemos as
variáveis medidas dos fatores subjacentes. Por exemplo, os psicólogos geralmente
estão interessados em fatores, porque eles estão interessados em como as coisas
acontecem dentro das cabeças das pessoas (as variáveis latentes) afetam a forma
como elas respondem as questões (as variáveis medidas). A outra grande diferença é
que, ao contrário do PCA, a análise fatorial contém um termo de erro (δ é composto de
pontuação em fatores únicos e erro de medição). O fato de a PCA assumir que não há
nenhum erro de medição perturba muitas pessoas que utilizam análise fatorial. Tanto
a análise fatorica como a PCA são modelos lineares em que as cargas são usadas como
pesos. Em ambos os casos, essas cargas podem ser expressas como uma matriz em
que as colunas representam cada fator e as linhas representam as cargas de cada
variável em cada fator. Para os dados de popularidade, essa matriz teria duas colunas
(uma para cada fator) e seis linhas (uma para cada variável). Esta matriz, Λ, pode ser
vista abaixo. É chamado de matriz de fatores ou matriz de componentes (se estiver
fazendo análise de componente principal) - veja Jane Superbrain Box 17.1 para
descobrir as diferentes formas dessa matriz. Tente relacionar os elementos com os
carregamentos na equação (17.3) para lhe dar uma idéia do que esta matriz
representa (no caso da PCA). Por exemplo, a linha superior representa a primeira
variável, Talk1, que teve um carregamento de .87 para o primeiro fator (Sociability) e
um carregamento de .01 para o segundo fator (Consideração).
O principal pressuposto na análise fatorial (mas não PCA) é que esses fatores
algébricos representam dimensões do mundo real, cuja natureza deve ser adivinhada
ao verificar quais variáveis têm cargas elevadas no mesmo fator. Assim, os psicólogos
podem acreditar que os fatores representam dimensões da psique, os pesquisadores
da educação podem acreditar que representam habilidades, e os sociólogos podem
acreditar que representam raças ou classes sociais. No entanto, é um ponto
extremamente controverso: alguns acreditam que as dimensões derivadas da análise
fatorial são reais apenas no sentido estatístico - e são ficções do mundo real.
Pontuação do fator
Um fator pode ser descrito em termos das variáveis medidas e sua importância relativa
para esse fator. Portanto, tendo descoberto quais fatores existem, e estimou a
equação que os descreve, deve ser possível estimar a pontuação de uma pessoa em
um fator, com base em suas pontuações para as variáveis constituintes; Estes são
conhecidos como pontuação dos fatores (ou pontuação dos componentes em PCA).
Por exemplo, se quisermos obter uma pontuação de sociabilidade para uma pessoa em
particular após a PCA, poderíamos colocar suas pontuações nas várias medidas na
equação (17.3). Este método é conhecido como uma média ponderada e raramente é
usado porque é excessivamente simplista, mas é a maneira mais fácil de explicar o
princípio. Por exemplo, imagine que nossas seis medidas de personalidade variam de 1
a 10 e que alguém avaliou o seguinte: Talk1 (4), Social Skills (9), Interest (8), Talk2 (6),
Selfish (8) e Liar (6 ). Poderíamos conectar esses valores à equação (17.3) para obter
uma pontuação para a sociabilidade desta pessoa e sua consideração para outros (ver
equação (17.5)). As pontuações resultantes de 19.22 e 15.21 refletem o grau em que
essa pessoa é sociável e sua desconsideração em relação aos outros, respectivamente.
Essa pessoa obtém maior relevância sobre a sociabilidade do que a desconsideração.
No entanto, as escalas de medida utilizadas influenciarão os escores resultantes, e se
diferentes variáveis usam diferentes escalas de medição, os escores dos fatores para
diferentes fatores não podem ser comparados. Como tal, este método de cálculo dos
escores dos fatores é pobre e os métodos mais sofisticados são geralmente usados:
JANE SUPERBRAIN
O método de regressão
Existem várias técnicas sofisticadas para calcular os escores de fatores que usam
coeficientes de pontuação de fatores como pesos, em vez de usar as cargas fatoriais.
Os coeficientes de pontuação do fator podem ser calculados de várias maneiras. A
maneira mais simples é o método de regressão. Neste método, as cargas de fatores
são ajustadas para ter em conta as correlações iniciais entre as variáveis; ao fazê-lo, as
diferenças em unidades de medida e variações variáveis são estabilizadas. Para obter a
matriz de coeficientes de pontuação de fatores (B), multiplicamos a matriz de carga de
fatores pelo inverso (R-1) da correlação original ou matriz R (este é o mesmo processo
que é usado para estimar o bs em regressão ordinária ). Você pode lembrar do capítulo
anterior que as matrizes não podem ser divididas (ver Seção 16.4.4.1). Portanto, o
equivalente a dividir por uma matriz é multiplicar pelo inverso dessa matriz.
Conceitualmente falando, então, ao multiplicar a matriz de carga de fatores pelo
inverso da matriz de correlação, estamos dividindo as cargas fatoriais pelos
coeficientes de correlação. A matriz de pontuação de fatores resultante representa a
relação entre cada variável e cada fator, levando em consideração as relações originais
entre pares de variáveis. Como tal, esta matriz representa uma medida mais pura da
relação única entre variáveis e fatores. A técnica de regressão garante que os escores
dos fatores resultantes tenham uma média de 0 e uma variância igual à correlação
múltipla quadrática entre os escores estimados do fator e os valores dos fatores reais.
No entanto, a desvantagem é que as pontuações podem relacionar-se não apenas com
outros fatores além daqueles em que se baseiam, mas também com outros escores de
fatores de um fator ortogonal diferente.
Outros métodos
Existem vários usos das pontuações dos fatores. Primeiro, se o objetivo da análise
fatorial é reduzir um grande conjunto de dados para um subconjunto menor de
variáveis de medição, então os escores dos fatores nos indicam a pontuação de um
indivíduo neste subconjunto de medidas. Portanto, qualquer análise adicional pode ser
realizada nos escores dos fatores e não nos dados originais. Por exemplo, poderíamos
realizar um teste t para ver se as fêmeas são significativamente mais sociáveis do que
os homens que usam as pontuações dos fatores para a sociabilidade. Um segundo uso
é superar os problemas de colinearidade na regressão. Se, após uma análise de
regressão múltipla, identificamos fontes de multicolinearidade, então a interpretação
da análise está comprometida (ver Seção 8.5.3). Nessa situação, podemos realizar um
PCA nas variáveis preditoras para reduzi-las a um subconjunto de fatores não
correlacionados. As variáveis que causam a multicolinearidade se combinarão para
formar um componente. Se, então, reexaminemos a regressão, mas usando as
pontuações dos componentes como variáveis preditoras, então o problema da
multicolinearidade deve desaparecer (porque as variáveis agora são combinadas em
um único componente). Há maneiras pelas quais podemos garantir que os
componentes não estejam correlacionados (uma maneira é usar o método Anderson-
Rubin - veja acima). Ao usar os escores de componentes não correlacionados como
preditores na regressão, podemos ter certeza de que não haverá correlação entre
preditores - portanto, sem multicolinearidade.
Fatores de descoberta
Até agora, você deve ter alguma compreensão sobre o que é um fator e o que é um
componente, então vamos agora aprofundar em como encontrar ou estimar esses
animais míticos.
Escolhendo um método
Existem vários métodos para desenterrar fatores em seus dados. O método escolhido
dependerá do que você deseja fazer com a análise. Tinsley e Tinsley (1987) dão uma
excelente conta dos diferentes métodos disponíveis. Há duas coisas a considerar: se
deseja generalizar os resultados da sua amostra para uma população e se você está
explorando seus dados ou testando uma hipótese específica. Este capítulo descreve
técnicas para explorar dados usando a análise fatorial. Testar hipóteses sobre as
estruturas de variáveis latentes e suas relações entre si requer uma complexidade
considerável e pode ser feito com programas de computador, como o pacote irmão da
SPSS, a AMOS. Os interessados em técnicas de teste de hipóteses (conhecidas como
análise fatorial de confirmação) são aconselhados a ler Pedhazur e Schmelkin (1991:
Capítulo 23) para uma introdução.
Comunalidade
A ideia de que variância é e como ela é calculada deve ser, agora, um velho amigo com
quem você aprecia chá e biscoitos (se não, veja o Capítulo 2). A variância total para
uma variável particular no R-matrix terá dois componentes: alguns serão
compartilhados com outras variáveis ou medidas (variância comum) e algumas delas
serão específicas dessa medida (variância única). Nós tendemos a usar o termo
variação única para se referir a variância que pode ser atribuída de forma confiável a
apenas uma medida. No entanto, existe também uma variação específica de uma
medida, mas não de forma confiável; essa variância é chamada de erro ou variância
aleatória. A proporção de variância comum presente em uma variável é conhecida
como a comunalidade. Como tal, uma variável que não possui variação única (ou
variação aleatória) teria uma comunalidade de 1; uma variável que não compartilha
nenhuma variância com qualquer outra variável teria uma comunalidade de 0. Na
análise fatorial, estamos interessados em encontrar dimensões subjacentes comuns
nos dados e, portanto, estamos principalmente interessados apenas na variância
comum. Portanto, precisamos saber quanto da variância presente em nossos dados é
variância comum. Isso nos apresenta um impasse lógico: para fazer a análise fatorial,
precisamos conhecer a proporção de variância comum presente nos dados, mas a
única maneira de descobrir a extensão da variância comum é realizar uma análise
fatorial! Existem duas maneiras de abordar esse problema. O primeiro é assumir que
toda a variância é variância comum: assumimos que a comunalidade de cada variável é
1. Ao fazer essa suposição, transporemos apenas nossos dados originais para
componentes lineares constituintes. Este procedimento é PCA. Lembre-se que eu disse
anteriormente que o PCA não assume nenhum erro de medição? Bem, ao estabelecer
as comunalidades para 1, estamos assumindo que toda variância é variância comum
(não há variação aleatória em absoluto). A segunda abordagem é estimar a quantidade
de variância comum, estimando valores de comunidade para cada variável. Existem
vários métodos para estimar as comunalidades, mas o mais utilizado (incluindo o
factoring alfa) é usar a correlação múltipla quadrada (SMC) de cada variável com todas
as demais. Então, para os dados de popularidade, imagine que você executou uma
regressão múltipla usando uma medida (egoísta) como o resultado e as outras cinco
medidas como preditores: o R2 múltiplo resultante (ver Seção 8.2.4) seria usado como
uma estimativa da comunalidade para a variável egoísta. Esta segunda abordagem é
usada na análise fatorial. Essas estimativas permitem que a análise fatorial seja feita.
Uma vez que os fatores subjacentes foram extraídos, novas comunalidades podem ser
calculadas que representam a correlação múltipla entre cada variável e os fatores
extraídos. Portanto, a comunalidade é uma medida da proporção de variância
explicada pelos fatores extraídos.
No PCA fazemos a mesma coisa, mas usamos a matriz de correlação geral (porque não
estamos interessados em comparar grupos de pontuações). Para simplificar as coisas
um pouco, tomamos uma matriz de correlação e calculamos as variáveis. Não há
grupos de observações, pelo que o número de variáveis calculadas sempre será igual
ao número de variáveis medidas (p). As variáveis são descritas, como para MANOVA,
pelos autovetores associados à matriz de correlação. Os elementos dos autovetores
são os pesos de cada variável na variável. Esses valores são as cargas descritas
anteriormente (ou seja, os valores de b na equação (16.5)). O maior autovalor
associado a cada um dos eigenvectors fornece um único indicador da importância
substancial de cada componente. A idéia básica é que nós retem componentes com
autovalores relativamente grandes e ignoramos aqueles com autovalores
relativamente pequenos.
Tanto em PCA quanto na análise fatorial, nem todos os fatores são mantidos. O
processo de decidir quantos fatores manter é chamado de extração. Eu mencionei
acima que os autovalores associados a uma variação indicam a importância substancial
desse fator. Portanto, é lógico reter apenas fatores com grandes autovalores. Esta
seção analisa a forma como determinamos se um autovalor é suficientemente grande
para representar um fator significativo.
Cattell (1966b) sugeriu traçar cada autovalor (eixo Y) contra o fator com o qual ele está
associado (eixo X). Este gráfico é conhecido como uma trama de sucesso (porque
parece um rosto de pedra com uma pilha de detritos, ou escória, na parte inferior). Eu
mencionei anteriormente que é possível obter tantos fatores como variáveis e que
cada um possui um autovalor associado. Ao representar os autovalores, a importância
relativa de cada fator torna-se aparente. Normalmente, haverá alguns fatores com
autovalores bastante elevados e muitos fatores com autovalores relativamente baixos
e, portanto, esse gráfico tem uma forma muito característica: há uma descida nítida na
curva seguida de uma saída (ver Figura 17.4). O ponto de inflexão é onde o declive da
linha muda dramaticamente, e Cattell (1966b) sugeriu usar este ponto como o corte
para os fatores de retenção. Na Figura 17.4, imagine desenhar duas linhas retas (as
linhas tracejadas vermelhas), uma que resume a parte vertical do enredo e a outra que
resume a parte horizontal. O ponto de inflexão é o ponto de dados em que essas duas
linhas se encontram. Você retém apenas fatores à esquerda do ponto de inflexão (e
não inclui o fator no ponto de inflexão em si) 4, então, em ambos os exemplos na
Figura 17.4, extrairíamos dois fatores porque o ponto de inflexão ocorre no terceiro
dado ponto (fator). Com uma amostra de mais de 200 participantes, a trama scree
fornece um critério bastante confiável para a seleção de fator (Stevens, 2002).
Embora as parcelas são muito úteis, Kaiser (1960) recomendou manter todos os
fatores com autovalores superiores a 1. Esse critério baseia-se na idéia de que os
autovalores representam a quantidade de variação explicada por um fator e que um
autovalor de 1 representa uma quantidade substancial de variação. Jolliffe (1972,
1986) relata que o critério de Kaiser é muito rígido e sugeriu manter todos os fatores
com autovalores superiores a 0,7. A diferença entre quantos fatores são mantidos
usando os métodos de Kaiser em comparação com Jolliffe pode ser dramática.
Como uma última palavra de conselho, sua decisão sobre quantos fatores extrair
dependerá também de por que você está fazendo a análise; Por exemplo, se você está
tentando superar problemas de multicolinearidade na regressão, então talvez seja
melhor extrair muitos fatores do que poucos.
Uma vez que os fatores foram extraídos, é possível calcular o grau de carga das
variáveis nesses fatores (ou seja, calcular as cargas para cada variável em cada fator).
Geralmente, você verá que a maioria das variáveis tem cargas elevadas no fator mais
importante e pequenas cargas em todos os outros fatores. Essa característica dificulta
a interpretação e, portanto, uma técnica chamada rotação de fatores é usada para
discriminar fatores. Se visualizarmos nossos fatores como um eixo ao longo do qual as
variáveis podem ser plotadas, a rotação do fator rota efetivamente esses eixos, de
modo que as variáveis sejam carregadas no máximo em apenas um fator. A Figura 17.5
demonstra como esse processo funciona com um exemplo no qual existem apenas
dois fatores. Imagine que um sociólogo estava interessado em classificar professores
universitários como um grupo demográfico. Ela descobriu que duas dimensões
subjacentes descrevem melhor este grupo: alcoolismo e realização (vá para qualquer
conferência acadêmica e você verá por que eu escolhi essas dimensões). O primeiro
fator, o alcoolismo, tem um conjunto de variáveis associadas a ele (círculos verdes), e
essas podem ser medidas como o número de unidades bebidas em uma semana,
dependência e personalidade obsessiva. O segundo fator, a realização, também tem
um conjunto de variáveis associadas a ele (círculos vermelhos) e estas podem ser
medidas relacionadas ao salário, status do trabalho e número de publicações de
pesquisa. Inicialmente, as linhas completas representam os fatores e, observando as
coordenadas, deve ficar claro que os círculos vermelhos têm cargas elevadas para o
fator 2 (eles estão muito para este eixo) e cargas médias para o fator 1 (eles não são
muito até este eixo). Por outro lado, os círculos verdes têm cargas elevadas para o
fator 1 e as cargas médias para o fator 2. Ao girar os eixos (linhas tracejadas),
asseguramos que ambos os clusters de variáveis sejam interceptados pelo fator ao
qual mais se relacionam. Assim, após a rotação, as cargas das variáveis são
maximizadas em um fator (o fator que intersecta o cluster) e minimizado no (s) fator
(s) restante (s). Se um eixo passa através de um conjunto de variáveis, essas variáveis
terão um carregamento de aproximadamente zero no eixo oposto. Se essa idéia é
confusa, observe a Figura 17.5 e pense nos valores das coordenadas antes e depois da
rotação (isso é melhor conseguido girando o livro quando você olha os eixos girados).
Existem dois tipos de rotação que podem ser feitas. A primeira é a rotação ortogonal, e
o lado esquerdo da Figura 17.5 representa esse método. No Capítulo 11, vimos que o
termo ortogonal significa "não relacionado", e neste contexto significa que rotei os
fatores, mantendo-os independentes ou não relacionados. Antes da rotação, todos os
fatores são independentes (ou seja, eles não se correlacionam de forma alguma) e a
rotação ortogonal garante que os fatores permaneçam relacionados à falta de cor. É
por isso que na Figura 17.5 os eixos são girados enquanto permanecem
perpendiculares.5 A outra forma de rotação é a rotação oblíqua. A derivação com
rotação oblíqua é que os fatores podem correlacionar-se (portanto, os eixos do
diagrama da mão direita da Figura 17.5 não permanecem perpendiculares). A escolha
da rotação depende de se existe uma boa razão teórica para supor que os fatores
devem ser relacionados ou independentes (mas veja meus comentários posteriores
sobre isso), e também como as variáveis se agrupam nos fatores antes da rotação. No
primeiro ponto, provavelmente é bastante raro que você mede um conjunto de
variáveis relacionadas e espera que suas dimensões subjacentes sejam completamente
independentes. Por exemplo, não esperamos que o alcoolismo seja completamente
independente da realização (afinal, a alta realização leva ao alto estresse, o que pode
levar ao armário de bebidas).
O caso com rotações oblíquas é mais complexo porque a correlação entre fatores é
permitida. No caso do oblimin direto, o grau de correlação dos fatores é determinado
pelo valor de uma constante chamada delta. O valor padrão no SPSS é 0, e isso garante
que uma correlação alta entre fatores não é permitida (isto é conhecido como rotação
direta de quartimmino). Se você optar por definir delta para maior que 0 (até 0,8),
então você pode esperar fatores altamente correlacionados; Se você definir o delta
com menos de 0 (até -0,8), você pode esperar fatores menos correlacionados. A
configuração padrão de zero é sensível para a maioria das análises, e não recomendo
mudá-las, a menos que você saiba o que está fazendo (ver Pedhazur & Schmelkin,
1991, p.620). O Promax é um procedimento mais rápido projetado para conjuntos de
dados muito grandes.
Uma vez encontrada uma estrutura de fatores, é importante decidir quais variáveis
compõem quais fatores. Anteriormente, eu disse que as cargas eram um indicador da
importância substancial de uma determinada variável para um determinado fator.
Portanto, faz sentido usar esses valores para colocar variáveis com fatores. É possível
avaliar a significância estatística de um carregamento (afinal, é simplesmente um
coeficiente de correlação ou coeficiente de regressão); No entanto, não é tão fácil
quanto parece (ver Stevens, 2002, pág. 393) porque o significado de um fator de carga
dependerá do tamanho da amostra. Stevens (2002) produziu uma tabela de valores
críticos contra os quais as cargas podem ser comparadas. Para resumir, ele recomenda
que, para um tamanho de amostra de 50, um carregamento de .722 pode ser
considerado significativo, para 100 o carregamento deve ser maior que .512, para 200
deve ser maior que .364, para 300 deve ser maior que .298, para 600 deve ser maior
que .21, e para 1000 deve ser maior que .162. Esses valores são baseados em um nível
alfa de .01 (duas colunas), o que permite o fato de que várias cargas precisarão ser
testadas (veja Stevens, 2002, para mais detalhes). Portanto, em amostras muito
grandes, pequenas cargas podem ser consideradas estatisticamente significativas. No
entanto, a importância de um carregamento dá pouca indicação da importância
substancial de uma variável para um fator. Podemos avaliar a importância ao quadrar
o carregamento para fornecer uma estimativa da quantidade de variância em um fator
representado por uma variável (como R2). A este respeito, Stevens (2002) recomenda
a interpretação das cargas fatoriais com um valor absoluto maior que 0,4 (o que
explica cerca de 16% da variância na variável). Alguns pesquisadores optam pelo
critério inferior de .3.
Exemplo de pesquisa
Um dos usos da análise fatorial é desenvolver questionários. Tenho notado que muitos
estudantes ficam muito estressados sobre SPSS. Portanto, queria projetar um
questionário para medir uma característica que eu chamava de "ansiedade SPSS". Eu
desenvolvi um questionário para medir vários aspectos da ansiedade dos alunos para
aprender SPSS, o SAQ (Figura 17.6). Eu gerei perguntas com base em entrevistas com
estudantes ansiosos e não ansiosos e encontrei 23 perguntas possíveis para incluir.
Cada pergunta foi uma declaração seguida de uma escala Likert de 5 pontos: "discorda
fortemente", "discorda", "não concorda nem discorda", "concorda" e "concorda
fortemente" (SD, D, N, A e SA, respectivamente). O questionário foi projetado para
medir quão ansioso um determinado indivíduo seria sobre aprender a usar SPSS. Além
disso, eu queria saber se a ansiedade sobre SPSS poderia ser dividida em formas
específicas de ansiedade. Em outras palavras, quais variáveis latentes contribuem para
a ansiedade sobre SPSS? Com pouca ajuda de alguns amigos conferencistas, coletei
2571 questionários completos (neste ponto, deve se tornar aparente que este exemplo
é fictício!). Carregue o arquivo de dados (SAQ.sav) no SPSS e veja as variáveis e suas
propriedades. A primeira coisa a observar é que cada questão (variável) é
representada por uma coluna diferente. Sabemos que em SPSS, os casos (ou os dados
das pessoas) são armazenados em linhas e as variáveis são armazenadas em colunas,
de modo que este layout é consistente com capítulos passados. A segunda coisa a
notar é que existem 23 variáveis identificadas como Question_01 a Question_23 e que
cada uma possui um rótulo que indica a pergunta. Ao rotular minhas variáveis, posso
ser muito claro sobre o que cada variável representa (este é o valor de dar a suas
variáveis títulos completos ao invés de apenas usar cabeçalhos de colunas restritivas).
Procedimento geral
A Figura 17.7 mostra o procedimento geral para a realização de análise fatorial ou PCA.
Primeiro, precisamos fazer um rastreio inicial dos dados, então, uma vez que iniciamos
a análise principal, precisamos considerar quantos fatores reter e a rotação a ser
utilizada, e se estiver usando a análise para analisar a estrutura dos fatores de um
questionário então gostaríamos de fazer uma análise de confiabilidade no final (ver
Seção 17.9).
Antes de você começar
Tamanho da amostra
Quando eu era graduação, meu professor de estatísticas sempre costumava dizer "se
você colocar o lixo, você tira o lixo". Esta afirmação aplica-se particularmente à análise
fatorial, pois o SPSS normalmente encontrará uma solução fatorial para um conjunto
de variáveis. No entanto, é improvável que a solução tenha algum significado real se as
variáveis analisadas não forem sensíveis. A primeira coisa a fazer ao realizar uma
análise fatorial ou PCA é olhar para as correlações entre variáveis. Existem
essencialmente dois problemas potenciais: (1) correlações que não são
suficientemente altas; e (2) correlações que são muito altas. Em ambos os casos, o
remédio é para remover variáveis da análise. As correlações entre variáveis podem ser
verificadas usando o procedimento correlato (ver Capítulo 7) para criar uma matriz de
correlação de todas as variáveis. Esta matriz também pode ser criada como parte da
análise fatorial. Examinaremos cada problema por sua vez. Se nossas perguntas de
teste medem a mesma dimensão subjacente (ou dimensões), esperamos que elas se
correlacionem entre si (porque estão medindo a mesma coisa). Mesmo que as
perguntas medem diferentes aspectos das mesmas coisas (por exemplo, podemos
medir a ansiedade geral em termos de subcomponentes, como preocupação,
pensamentos intrusivos e excitação fisiológica), ainda deve haver altas correlações
entre as variáveis relacionadas a essas sub-características . Podemos testar este
problema primeiro através da verificação visual da matriz de correlação e busca
correlações abaixo de cerca de 0,3 (você poderia usar o significado das correlações,
mas, dado os grandes tamanhos de amostra normalmente utilizados com a análise
fatorial, esta abordagem não é útil porque mesmo correlações muito pequenas serão
significativas em grandes amostras). Se quaisquer variáveis tiverem muitas correlações
abaixo, então considere excluí-las. Deve ficar imediatamente claro que esta
abordagem é muito subjetiva: usei termos difusos como "cerca de .3" e "muitos", mas
tenho que porque todos os conjuntos de dados são diferentes. Analisar dados
realmente é uma habilidade, e há mais do que seguir um livro de receitas! Para um
teste objetivo de se as correlações (em geral) são muito pequenas, podemos testar um
cenário muito extremo. Se as variáveis em nossa matriz de correlação não se
correlacionassem, nossa matriz de correlação seria uma matriz de identidade (isto é,
os componentes fora da diagonal seriam zero); então, se a matriz de correlação de
população se assemelha a uma matriz de identidade, então significa que cada variável
se correlaciona muito mal com todas as outras variáveis (ou seja, todos os coeficientes
de correlação são próximos de zero). O teste de Bartlett nos diz se nossa matriz de
correlação é significativamente diferente de uma matriz de identidade. Portanto, se é
significativo, significa que as correlações entre variáveis são (em geral)
significativamente diferentes de zero. O problema é que, porque o significado depende
do tamanho da amostra (ver Seção 2.6.1.10) e na análise fatorial, os tamanhos de
amostra são muito grandes, o teste de Bartlett quase sempre será significativo: mesmo
quando as correlações entre variáveis são muito pequenas. Como tal, não é um teste
útil (embora no caso improvável de que não seja significativo, você certamente tem
um grande problema). O problema oposto é quando as variáveis se correlacionam
demais. Embora a multicolinearidade leve não seja um problema para a análise
fatorial, é importante evitar a multicolinealidade extrema (ou seja, variáveis altamente
correlacionadas) e a singularidade (variáveis perfeitamente correlacionadas). Tal como
acontece com a regressão, a multicolinearidade causa problemas na análise fatorial
porque torna-se impossível determinar a contribuição única para um fator das
variáveis altamente correlacionadas.
Multicollinearidade não causa um problema para PCA.
A distribuição de dados
Executando a análise
Existem várias opções disponíveis, a primeira das quais pode ser acessada clicando
para acessar a caixa de diálogo na Figura 17.10. A opção descritiva
Univariada fornece meios e desvios padrão para cada variável. A maioria das outras
opções relaciona-se com a matriz de correlação das variáveis (a matriz R descrita
anteriormente). A opção Coeficientes produz a matriz R e a seleção da opção Níveis de
significância incluirá o valor de significância de cada correlação na matriz R. Você
também pode pedir o Determinante desta matriz, que é útil para testes de
multicolinearidade ou singularidade (ver Seção 17.5.2.2).
A opção Reproduzir produz uma matriz de correlação baseada no modelo (em vez dos
dados reais). As diferenças entre a matriz baseada no modelo e a matriz com base nos
dados observados indicam os resíduos do modelo. O SPSS produz esses resíduos na
tabela inferior da matriz reproduzida, e queremos que relativamente poucos desses
valores sejam maiores que 0,05. Por sorte, para nos salvar a escanear esta matriz, o
SPSS produz um resumo de quantos resíduos estão acima de .05. A opção Reproduzido
deve ser selecionada para obter esse resumo. A opção Anti-imagem produz uma
matriz anti-imagem de covariâncias e correlações. Essas matrizes contêm medidas de
adequação da amostragem para cada variável ao longo da diagonal e os negativos das
correlações / covariâncias parciais nas off-diagonals. Os elementos diagonais, como a
medida KMO, devem ser todos maiores que 0,5 por um mínimo, se a amostra for
adequada para um par de variáveis. Se qualquer par de variáveis tiver um valor inferior
a este, considere deixar um deles a partir da análise. Os elementos fora da diagonal
devem ser muito pequenos (perto de zero) em um bom modelo. Quando você
terminar com esta caixa de diálogo, clique em para retornar à caixa de diálogo
principal.
Rotação
Já vimos que a interpretabilidade dos fatores pode ser melhorada através da rotação
(Seção 17.4.6). Clique em para acessar a caixa de diálogo na Figura 17.12. Eu discuti as
várias opções de rotação na Seção 17.4.6.1, mas, para resumir, se houver motivos
teóricos para pensar que os fatores são independentes (não relacionados), você deve
escolher uma das rotações ortogônicas (eu recomendo varimax), mas se A teoria
sugere que seus fatores possam se correlacionar, então uma das rotações oblíquas
(oblimin ou promax direto) deve ser selecionada. Neste exemplo, selecionei varimax. A
caixa de diálogo também possui opções para exibir a solução Rotated e um gráfico de
carregamento. A solução girada é exibida por padrão e é essencial para interpretar a
análise rotativa final. O gráfico de carregamento fornecerá uma exibição gráfica de
cada variável plotada contra os fatores extraídos até um máximo de três fatores
(infelizmente, o SPSS não pode produzir gráficos de quatro ou cinco dimensões). Este
gráfico é basicamente semelhante à Figura 17.3 e usa o fator de carga de cada variável
para cada fator. Com dois fatores, essas parcelas são bastante interpretáveis e você
deve esperar ver um grupo de variáveis agrupadas próximas ao eixo X e um grupo
diferente de variáveis agrupadas em torno do eixo Y. Se todas as variáveis estiverem
agrupadas entre os eixos, a rotação tem sido relativamente infrutífera ao maximizar o
carregamento de uma variável em um único fator. Com três fatores, essas parcelas
prejudicarão o sistema visual mais dedicado, então, a menos que você tenha apenas
dois fatores, provavelmente os evitaria.
Uma opção final é definir as Iterações Máximas para Convergência (veja SPSS Dica
19.1), que especifica o número de vezes que o computador procurará uma solução
ideal. Na maioria das circunstâncias, o padrão de 25 é adequado; no entanto, se você
receber uma mensagem de erro sobre convergência, então, adicione esse valor.
Pontuação
A caixa de diálogo Factor Scores (Figura 17.13) pode ser acessada clicando na caixa de
diálogo principal. Esta opção permite salvar pontuações de fatores (ver Seção 17.3.3)
para cada caso no editor de dados. SPSS cria uma nova coluna para cada fator extraído
e, em seguida, coloca a pontuação do fator para cada caso dentro dessa coluna. Essas
pontuações podem então ser usadas para uma análise mais aprofundada, ou
simplesmente para identificar grupos de participantes que obtêm altos resultados em
fatores específicos. Existem três métodos para obter esses escores, todos os quais
foram descritos na Seção 17.3.3. Se você quiser garantir que os escores dos fatores
não estejam correlacionados, selecione o método Anderson-Rubin; se as correlações
entre os escores dos fatores forem aceitáveis, escolha o método de Regressão. Como
opção final, você pode solicitar ao SPSS que produza a matriz do coeficiente de
pontuação do fator. Esta matriz é usada para calcular os escores dos fatores, mas
realisticamente, não precisamos vê-lo.
Opções
A caixa de diálogo Opções pode ser obtida clicando na caixa de diálogo principal
(Figura 17.14). Os dados em falta são um problema para a análise de fatores, como a
maioria dos outros procedimentos, e o SPSS oferece uma escolha de excluir casos ou
estimar um valor para um caso. Tabachnick e Fidell (2012) têm um excelente capítulo
sobre rastreio de dados (veja também o Capítulo 5, pouco menos excelente, deste
livro). Com base em seus conselhos, você deve considerar a distribuição de dados
ausentes. Se os dados em falta forem distribuídos de forma não numerada ou o
tamanho da amostra após a exclusão for muito pequeno, é necessário estimar. SPSS
usa a média como uma estimativa (Substitua com a média). Estes procedimentos
diminuem o desvio padrão das variáveis e, portanto, podem levar a resultados
significativos que, de outra forma, não seriam significativos. Portanto, se os dados em
falta forem aleatórios, você pode considerar excluir os casos. O SPSS permite que você
exclua os casos em lista, caso em que qualquer participante com dados faltantes para
qualquer variável é excluído, ou Excluir casos em pares, caso em que os dados de um
participante são excluídos apenas dos cálculos para os quais um dado está faltando
(ver SPSS Dica 5.1). Se você exclui os casos, em vez disso, suas estimativas podem ir
por todo o lugar, portanto, provavelmente é mais seguro optar por excluir os casos em
lista, a menos que isso resulte em uma perda maciça de dados. As duas últimas opções
referem-se a como os coeficientes são exibidos. Por padrão, o SPSS listará as variáveis
na ordem em que são inseridas no editor de dados. No entanto, ao interpretar fatores,
é útil listar variáveis por tamanho. Ao selecionar Ordenar por tamanho, o SPSS irá
ordenar as variáveis pelo seu fator de carregamento. Na verdade, ele faz essa
classificação com bastante inteligência para que todas as variáveis que carregam
altamente no mesmo fator são exibidas em conjunto. A segunda opção é suprimir
valores absolutos inferiores a um valor especificado (por padrão, 0,1). Esta opção
garante que os carregamentos de fator dentro de ± 0,1 não sejam exibidos na saída.
Mais uma vez, esta opção é útil para interpretação. O valor padrão provavelmente é
sensível, mas em sua primeira análise, eu recomendo mudá-lo para .3 ou para um
valor que reflita o valor esperado de um fator de fator significativo, dado o tamanho da
amostra (ver Seção 17.4.6.2). Isso tornará a interpretação mais simples. Sabemos que
um carregamento de .4 é substancial, mas, portanto, não descartamos o bebê com a
água do banho, estabelecendo o valor para 0.3 é sensível: veremos não só o
substancial carregamentos, mas aqueles próximos ao corte (por exemplo, um
carregamento de .39). Para este exemplo, defina o valor em .3.
Interpretando o resultado do SPSS
Selecione as mesmas opções que eu tenho nos diagramas de tela e execute uma
análise de fator com rotação ortogonal.
Para economizar espaço, defino as opções SPSS padrão, de modo que cada variável
seja referida apenas pelo seu rótulo no editor de dados (por exemplo, Question_12).
Na saída que você obtém, você deve descobrir que o SPSS usa o rótulo do valor (a
própria pergunta) em todos os resultados. Ao usar a saída, consulte a Figura 17.6 para
lembrá-lo de cada pergunta. Quando você analisa os seus próprios dados, pode ser
desafortunado o suficiente para ver uma mensagem de erro sobre uma "matriz
definida não positiva" (veja SPSS Dica 17.2). Uma "matriz definida não positiva" parece
um pouco como uma coleção de números deprimidos que não têm certeza sobre suas
vidas. De certa forma, é.
Análise preliminar
Se você selecionou a opção Inversa na Figura 17.10, você encontrará o inverso da
matriz de correlação (R-1) em sua saída (rotulada como Inversa da Matriz de
Correlação). Esta matriz é usada em vários cálculos (incluindo os escores dos fatores -
veja a Seção 17.3.3.1), mas, com toda a honestidade, é útil somente se desejar alguma
informação sobre os cálculos que ocorrem em uma análise fatorial. A maioria de nós
tem coisas mais interessantes para fazer, então ignore.
Para a estatística KMO, o valor é .93, que está bem acima do critério mínimo de .5 e cai
no intervalo de "maravilhoso" (ver Seção 17.5.2.1), por isso devemos ter certeza de
que o tamanho da amostra é adequado para o fator análise. Eu mencionei
anteriormente que o KMO pode ser calculado para variáveis múltiplas e individuais. Os
valores de KMO para variáveis individuais são produzidos na diagonal da matriz de
correlação anti-imagem (eu destaquei essas células na saída 17.3). Além de verificar a
estatística geral do KMO, devemos examinar os elementos diagonais da matriz de
correlação anti-imagem: os valores devem estar acima do mínimo de .5 (e de
preferência maior). Para esses dados, todos os valores estão bem acima .5, o que é
uma boa notícia. Se você encontrar quaisquer variáveis com valores abaixo de 0,5,
então você deve considerar excluí-las da análise (ou executar a análise com e sem essa
variável e anotar a diferença). A remoção de uma variável afeta as estatísticas do KMO,
portanto, se você remover uma variável, certifique-se de reexaminar a nova matriz de
correlação anti-imagem. Quanto ao resto da matriz de correlação anti-imagem, os
elementos fora da diagonal representam as correlações parciais entre as variáveis.
Para uma boa análise fatorial, queremos que essas correlações sejam muito pequenas
(quanto menor, melhor). Então, como uma verificação final, você pode olhar para ver
que os elementos fora da diagonal são pequenos (eles devem ser para esses dados).
A medida de Bartlett (Output 17.2) testa a hipótese nula de que a matriz de correlação
original é uma matriz de identidade. Queremos que este teste seja significante (ver
Seção 17.5.2.2). Como mencionei anteriormente, dado os grandes tamanhos de
amostra geralmente utilizados na análise fatorial, este teste quase certamente será
significativo e é (p <0,001). Um teste não significativo certamente indicaria um enorme
problema, mas esse valor significativo realmente nos diz que não temos um problema
enorme, o que é bom saber, suponho.
Extração de fator
A saída 17.4 lista os autovalores associados a cada fator antes da extração, após a
extração e após a rotação. Antes da extração, o SPSS identificou 23 fatores dentro do
conjunto de dados (sabemos que deve haver quantos vetores próprios como variáveis
e, portanto, haverá tantos fatores como variáveis - veja a Seção 17.4.4). Os autovalores
associados a cada fator representam a variância explicada por esse fator particular; O
SPSS também exibe o autovalor em termos da porcentagem de variância explicada
(portanto, o fator 1 explica 31,696% da variância total). Os primeiros fatores explicam
quantidades de variância relativamente grandes (especialmente o fator 1), enquanto
os fatores subseqüentes explicam apenas pequenas quantidades de variância. O SPSS
extrai todos os fatores com autovalores superiores a 1, o que nos deixa com quatro
fatores. Os autovalores associados a esses fatores são novamente exibidos (e a
porcentagem de variância explicada) nas colunas denominadas Soma de Extração de
Cargas Squared. Na parte final da tabela (rotada de Soma de rotação de cargas
quadradas), os autovalores dos fatores após a rotação são exibidos. A rotação tem o
efeito de otimizar a estrutura do fator, e uma conseqüência para esses dados é que a
importância relativa dos quatro fatores é igualada um pouco. Antes da rotação, o fator
1 representou consideravelmente mais variância do que os três restantes (29,32%
comparado a 4,90%, 3,54% e 2,71%), mas após a rotação, representa apenas 13,19%
da variância (em comparação com 12,42%, 8,64% e 6,24 %, respectivamente).
A saída 17.5 (esquerda) mostra a tabela de comunalidades antes e depois da extração.
Lembre-se de que a comunidade é a proporção de variância comum dentro de uma
variável (ver Seção 17.4.1). A análise dos fatores começa por estimar a variância que é
comum; portanto, antes da extração, as comunalidadessão uma espécie de melhor
palpite. Uma vez que os fatores foram extraídos, temos uma melhor idéia de quanto
variação é, na realidade, comum. As comunalidades na coluna denominada Extração
refletem essa variância comum. Assim, por exemplo, podemos dizer que 37,3% da
variância associada à questão 1 é comum, ou compartilhada, variância. Outra maneira
de olhar para essas comunalidades é em termos da proporção de variância explicada
pelos fatores subjacentes. Lembre-se que, após a extração, descartamos alguns fatores
(neste caso, mantivemos apenas quatro), então as comunalidades após a extração
representam a quantidade de variância em cada variável que pode ser explicada pelos
fatores retidos.
A saída 17.5 (direita) também mostra a matriz do fator antes da rotação. Esta matriz
contém as cargas de cada variável em cada fator. Por padrão, o SPSS exibe todas as
cargas; no entanto, pedimos que todas as cargas inferiores a .3 sejam suprimidas na
saída (veja a Figura 17.14) e, portanto, há espaços em branco para muitas das cargas.
Esta matriz não é particularmente importante para a interpretação, mas é interessante
notar que, antes da rotação, as demais variáveis são altamente responsáveis pelo
primeiro fator (é por isso que esse fator explica a maior parte da variância na saída
17.4).
A análise de fator é uma ferramenta exploratória e, portanto, deve ser usada para
orientar o pesquisador para tomar várias decisões: você não deve deixar o computador
para fazê-los. Uma decisão importante é o número de fatores a serem extraídos (Seção
17.4.5). Pelo critério de Kaiser, devemos extrair quatro fatores (o que o SPSS fez); no
entanto, esse critério é preciso quando há menos de 30 variáveis e comunalidades
após a extração são maiores que 0,7 ou quando o tamanho da amostra excede 250 e a
média comum é maior que 0,6. Não há comunalidades superiores a .7 (Saída 17.5), e a
comunidade comum pode ser encontrada, adicionando-as e dividindo-se pelo número
de comunalidades (9.31 / 23 = .405). Então, ambos os critérios sugerem que a regra de
Kaiser pode ser inadequada para esses dados. Poderíamos usar o critério de Jolliffe
(reter fatores com autovalores superiores a .7), mas há pouco para recomendar este
critério sobre o Kaiser e acabaríamos com 10 fatores (ver Saída 17.4). Finalmente,
poderíamos usar a trama de scree, que pedimos ao SPSS para produzir usando a opção
na Figura 17.11. Esta curva é difícil de interpretar porque existem pontos de inflexão
em ambos os fatores 3 e 5 (saída 17.6). Portanto, provavelmente podemos justificar a
retenção de dois ou quatro fatores.
Então, quantos fatores devemos extrair? Precisamos considerar que as recomendações
para o critério de Kaiser são para amostras muito menores do que nós. Portanto, dada
a nossa enorme amostra, e dado que há alguma consistência entre o critério de Kaiser
e o enredo de scree, é razoável extrair quatro fatores; no entanto, você gostaria de
executar a análise especificando que SPSS extraia apenas dois fatores (veja a Figura
17.11) e compare os resultados.
A saída 17.7 mostra uma versão editada da matriz de correlação reproduzida que foi
solicitada usando a opção na Figura 17.10. A metade superior desta matriz (rotulada
Correlações Reproduzidas) contém os coeficientes de correlação entre todas as
questões com base no modelo do fator. A diagonal disto
A matriz contém as comunalidades após a extração para cada variável (você pode
verificar os valores contra Saída 17.5).
As correlações na matriz reproduzida diferem daquelas na matriz R porque derivam do
modelo em vez dos dados observados. Se o modelo fosse um ajuste perfeito dos
dados, esperamos que os coeficientes de correlação reproduzidos sejam os mesmos
que os coeficientes de correlação originais. Portanto, para avaliar o ajuste do modelo,
podemos observar as diferenças entre as correlações observadas e as correlações com
base no modelo. Por exemplo, se tomarmos a correlação entre as questões 1 e 2, a
correlação com base nos dados observados é -099 (retirada da Saída 17.1). o
A correlação baseada no modelo é -121, que é ligeiramente maior. Podemos calcular a
diferença da seguinte forma:
Você deve notar que essa diferença é o valor cotado na metade inferior da matriz
reproduzida (rotulada como Residual) para as questões 1 e 2 (realçado em azul).
Portanto, a metade inferior da matriz reproduzida contém as diferenças entre os
coeficientes de correlação observados e os previstos pelo modelo. Para um bom
modelo, esses valores serão pequenos. Na verdade, queremos que a maioria dos
valores seja inferior a .05. Em vez de analisar esta matriz enorme, o SPSS fornece um
resumo de nota de rodapé, que indica quantos resíduos têm um valor absoluto maior
do que 0,05. Para esses dados, há apenas 12 resíduos (4%) 8 que são maiores que 0,05.
Não há regras rígidas sobre o que a proporção de resíduos deve estar abaixo de 0,05;
no entanto, se mais de 50% forem superiores a 0,05, você provavelmente tem motivos
para se preocupar. Para esses dados, temos cerca de 4%, o que certamente não é de
se preocupar. CRAMMING SAM'S TIPS Extração de fator Para decidir quantos fatores
extrair, veja a tabela rotulada de Comunicações e a coluna denominada Extração. Se
esses valores são todos .7 ou acima e você tem menos de 30 variáveis, então o SPSS
padrão (critério de Kaiser) para extrair fatores está bem. Da mesma forma, se seu
tamanho de amostra exceder 250 e a média das comunalidadesé de 0,6 ou maior,
então a opção padrão está bem. Alternativamente, com 200 ou mais participantes, o
traçado de scree pode ser usado. Verifique a parte inferior da tabela rotulada
Correlações Reproduzidas para a porcentagem de "resíduos não redundantes com
valores absolutos superiores a 0,05". Esta percentagem deve ser inferior a 50% e
quanto menor for, melhor.
Rotação de fator
A primeira análise que eu pedi para você executar foi usar uma rotação ortogonal. No
entanto, eu também pedi a você que voltasse a executar a análise usando rotação
oblíqua. Nesta seção, os resultados de ambas as análises serão relatados de modo a
destacar as diferenças entre as saídas. Esta comparação também será uma maneira
útil de mostrar as circunstâncias em que um tipo de rotação pode ser preferível a
outro.
Rotação ortogonal (Varimax)
Compare esta matriz com a solução não-roteada (Saída 17.5). Antes da rotação, a
maioria das variáveis carregadas altamente no primeiro fator e os fatores restantes
não conseguiram realmente um look-in. No entanto, a rotação da estrutura dos fatores
clarificou consideravelmente as coisas: há quatro fatores e a maioria das variáveis
carrega muito altamente em apenas um fator.9 Nos casos em que uma variável
carrega altamente em mais de um fator, o carregamento é tipicamente maior por um
fator do que outro. Por exemplo, "SPSS sempre falha quando eu tento usá-lo" em
ambos os fatos 1 e 2, mas o carregamento do fator 2 (.612) é maior do que para o
fator 1 (.366), então faz sentido pensar Isso faz parte do fator 2 mais do que o fator 1.
Lembre-se de que cada variável tem um carregamento em todos os fatores, apenas
aparece como se não estivessem na Saída 17.8 porque pedimos que não fossem
impressas se fossem menores do que .3.
Rotação oblíqua
Para a matriz de padrões para esses dados (Saída 17.9), os mesmos quatro fatores
parecem ter surgido. O fator 1 parece representar o medo das estatísticas, o fator 2
representa o medo da avaliação dos pares, o fator 3 representa o medo dos
computadores e o fator 4 representa o medo da matemática. A matriz de estrutura
(Saída 17.10) difere em que a variância compartilhada não é ignorada. A imagem se
torna mais complicada porque, com exceção do fator 2, várias variáveis são altamente
carregadas em mais de um fator. Isso ocorreu devido à relação entre os fatores 1 e 3 e
entre os fatores 3 e 4. Este exemplo deve destacar por que a matriz do padrão é
preferível por razões interpretativas: contém informações sobre a contribuição única
de uma variável para um fator.
A parte final da saída é uma matriz de correlação entre os fatores (Saída 17.11). Esta
matriz contém os coeficientes de correlação entre os fatores. Conforme previsto na
matriz da estrutura, o fator 2 tem relações bastante pequenas com os outros fatores,
mas todos os outros fatores têm correlações bastante grandes. O fato de que essas
correlações existem nos diz que as construções medidas podem estar inter-
relacionadas. Se as construções fossem independentes, esperamos que a rotação
oblíqua ofereça uma solução idêntica a uma rotação ortogonal e a matriz de
correlação de fatores deve ser uma matriz de identidade (isto é, todos os fatores têm
coeficientes de correlação de 0). Portanto, esta matriz pode ser usada para avaliar se é
razoável assumir a independência entre os fatores: para esses dados parece que não
podemos assumir a independência e, portanto, a solução girada obliquamente é
provavelmente uma melhor representação da realidade.
Em um nível teórico, a dependência entre nossos fatores não causa preocupação;
podemos esperar uma relação bastante forte entre medo de matemática, medo de
estatísticas e medo de computadores. Geralmente, as pessoas com menos
mentalidade e tecnologia enfrentam estatísticas. No entanto, não esperamos que
essas construções se correlacionem fortemente com o medo da avaliação dos pares
(porque essa construção é mais baseada socialmente). Na verdade, esse fator é o que
mais se correlaciona com todos os outros - então, em um nível teórico, as coisas
acabaram bem.
Pontuação do fator
Tendo alcançado uma solução adequada e girado essa solução, podemos observar os
escores dos fatores. O SPSS exibirá a matriz de pontuação do componente B (ver Seção
17.3.3.1) a partir da qual os escores dos fatores são calculados. Eu não reproduzi esta
tabela aqui porque não consigo pensar em uma razão pela qual a maioria das pessoas
gostaria de olhar para ela. Na análise original, pedimos que as pontuações sejam
calculadas com base no método Anderson-Rubin. Você encontrará essas pontuações
no editor de dados. Deve haver quatro novas colunas de dados (um para cada fator)
rotulado FAC1_1, FAC2_1, FAC3_1 e FAC4_1, respectivamente. Se você perguntou por
pontuação de fatores na rotação oblíqua, essas pontuações aparecerão no editor de
dados em quatro outras colunas denominadas FAC2_1 e assim por diante.
Resumo
Análise de confiabilidade
Medidas de confiabilidade
Se você estiver usando a análise fatorial para validar um questionário, é útil verificar a
confiabilidade da sua escala.
Confiabilidade significa que uma medida (ou, neste caso, questionário) deve refletir
consistentemente a construção que está medindo. Uma maneira de pensar nisso é
que, sendo outras coisas iguais, uma pessoa deve obter a mesma pontuação em um
questionário se o completarem em dois momentos diferentes (já descobrimos que isso
é chamado de confiabilidade test-retest). Então, alguém que está aterrorizado com o
SPSS e que obtém altos resultados em nosso SAQ deve marcar de forma similar
altamente se testá-los um mês depois (assumindo que eles não tinham entrado em
algum tipo de terapia SPSS-ansiedade naquele mês). Outra maneira de olhar para a
confiabilidade é dizer que duas pessoas que são as mesmas em termos de construção a
ser medida devem obter o mesmo resultado. Então, se levássemos duas pessoas que
fossem igualmente SPSS-fóbicas, então deveriam obter pontuações mais ou menos
idênticas no SAQ. Da mesma forma, se tomarmos duas pessoas que adorassem o SPSS,
ambos deveriam obter pontuações igualmente baixas. Deve ser evidente que o SAQ
não seria uma medida precisa da ansiedade do SPSS se levássemos alguém que amasse
o SPSS e alguém que estava aterrorizado e obteve o mesmo resultado! Em termos
estatísticos, a maneira usual de ver a confiabilidade é baseada na idéia de que itens
individuais (ou conjuntos de itens) devem produzir resultados consistentes com o
questionário geral. Então, se levarmos a alguém com medo de SPSS, sua pontuação
geral no SAQ será alta; se o SAQ é confiável, então, se selecionarmos aleatoriamente
alguns itens, a pontuação da pessoa nesses itens também deve ser alta.
Esta equação pode parecer complicada, mas na verdade não é. Para cada item em
nossa escala, podemos calcular duas coisas: a variação dentro do item e a covariância
entre um item específico e qualquer outro item na escala. Dito de outra forma,
podemos construir uma matriz de variação-covariância de todos os itens. Nesta matriz,
os elementos diagonais serão a variância dentro de um item específico, e os elementos
offdiagonais serão covariâncias entre pares de itens. A metade superior da equação é
simplesmente o número de itens (N) quadrados multiplicados pela covariância média
entre itens (a média dos elementos fora da diagonal na matriz de variância-covariância
acima mencionada). A metade inferior é a soma de todas as variações de itens e
covariâncias de itens (ou seja, a soma de tudo na matriz de variação-covariância).
O aviso final é sobre itens que têm um fraseio reverso. Por exemplo, no SAQ há um
item (questão 3) que foi redigido ao contrário de todos os outros itens. O item foi
"desvios padrão me excitam". Compare isso com qualquer outro item e você verá que
ele exige a resposta oposta. Por exemplo, o item 1 é "as estatísticas me fazem chorar".
Se você não gosta de estatísticas, então você concordará com esta declaração e, assim,
obterá uma pontuação de 5 em nossa escala. Para o item 3, se você odeia as
estatísticas, é improvável que os desvios padrão o excitam para que você discorda
fortemente e obtenha uma pontuação de 1 na escala. Esses itens com letras invertidas
são importantes para reduzir o viés de resposta; Os participantes precisarão prestar
atenção às questões. Para a análise fatorial, esse fraseio reverso não importa; Tudo o
que acontece é que você obtém um fator negativo ao carregar para itens reversos (na
verdade, você verá que o item 3 tem um fator negativo na saída 17.9). No entanto,
esses itens com pontuação reversa afetarão o alfa.
Para ver o porquê, pense na equação para o α de Cronbach. A metade superior
incorpora a covariância média entre os itens. Se um item for escrito de volta, ele terá
uma relação negativa com outros itens, portanto, as covariâncias entre esse item e
outros itens serão negativas. A média da covariância é a soma das covariâncias
divididas pelo número de covariâncias e, ao incluir um monte de valores negativos,
reduzimos a soma das covariâncias e, portanto, também reduzimos o α de Cronbach,
porque a metade superior da equação diminui. Em casos extremos, é possível obter
um valor negativo para o α de Cronbach, simplesmente porque a magnitude das
covariâncias negativas é maior do que a magnitude dos positivos. Um α negativo de
Cronbach não faz muito sentido, mas acontece, e se o fizer, pergunte-se se você incluiu
itens com itens reversos.
Se você tem itens com frase reversa, então você também deve reverter a maneira pela
qual eles são marcados antes de realizar a análise de confiabilidade. Isso é bastante
fácil. Para tomar nossos dados SAQ, temos um item que atualmente é classificado
como 1 = discorda fortemente, 2 = discorda, 3 = nenhum, 4 = concorda e 5 = concorda
fortemente. Isso é bom para os itens redigidos de tal forma que o acordo indica
ansiedade estatística, mas para o item 3 (desvios padrão me excitam), o
desentendimento indica ansiedade estatística. Para refletir numericamente,
precisamos reverter a escala de modo que 1 = concorde, 2 = concordar, 3 = não, 4 =
discordar e 5 = discordar fortemente. Ao fazê-lo, uma pessoa ansiosa ainda recebe 5
neste item (porque eles estavam totalmente em desacordo com isso).
Para reverter a pontuação, procure o valor máximo da escala de resposta (neste caso
5) e adicione 1 a ela (para que você tenha 6 neste caso). Então, para cada pessoa, você
tira esse valor e resta da nota que eles realmente conseguiram. Portanto, alguém que
marcou 5 originalmente agora classifica 6-5 = 1, e alguém que marcou 1 originalmente
agora recebe 6-1 = 5. Alguém no meio da escala com uma pontuação de 3 ainda
receberá 6-3 = 3. Obviamente, levaria muito tempo para fazer isso por cada pessoa,
mas podemos fazer com que a SPSS faça isso por nós.
Vamos testar a confiabilidade do SAQ usando os dados no SAQ.sav. Você deve ter o
item 3 com referência inversa (veja acima), mas se você não pode ser incomodado,
então carregue o arquivo SAQ (Item 3 Invertido) .sav em vez disso. Lembre-se também
de que eu disse que devemos realizar análises de confiabilidade em qualquer
subescalas individualmente. Se usarmos os resultados de nossa rotação oblíqua (saída
17.9), temos quatro subescalas:
Para realizar cada análise de confiabilidade nesses dados, você precisa selecionar
ANALYZE-SCALE-RELIABILITY ANALYSIS para exibir a caixa de diálogo na Figura 17.15.
Selecione os itens da lista que deseja analisar (para começar, vamos fazer os itens da
subescala de medo de estatísticas: itens 1, 3, 4, 5, 12, 16, 20 e 21) no lado esquerdo da
caixa de diálogo e arraste-os para a caixa rotulada Itens (ou clique em ). Lembre-se
de que você pode selecionar vários itens ao mesmo tempo, se você pressionar a tecla
Ctrl (Cmd em um Mac) enquanto você seleciona as variáveis.
Existem várias análises de confiabilidade que você pode executar, mas a opção padrão
é α de Cronbach. Você pode alterar o método (por exemplo, para o método de metade
dividida) clicando para revelar uma lista suspensa de possibilidades, mas o
método padrão é bom para selecionar. Além disso, é uma boa idéia digitar o nome da
escala (neste caso, "Medo das estatísticas") na caixa denominada Etiqueta Escala
porque isso irá adicionar um cabeçalho à saída do SPSS com o que você digitar nesta
caixa: digitar uma sensível O nome aqui tornará sua saída mais fácil de seguir.
A saída 17.13 mostra os resultados desta análise básica de confiabilidade para o medo
da subescala de estatísticas. O valor de α de Cronbach é apresentado em uma pequena
tabela e indica a confiabilidade geral da escala. Tendo em mente o que já observamos
sobre os efeitos da quantidade de itens, e como é improvável aplicar regras gerais,
estamos procurando valores na região de cerca de .7 a .8. Neste caso, α é .821, que é
certamente na região indicada por Kline (1999), e provavelmente indica boa
confiabilidade.
Apenas para ilustrar a importância dos itens de pontuação reversa antes de executar a
análise de confiabilidade, a saída 17.14 mostra a análise de confiabilidade para o medo
da subescala de estatísticas, mas feita nos dados originais (ou seja, sem que o item 3
seja marcado de forma reversa). Observe que o α global é consideravelmente menor
(0,605 em vez de 0,821). Além disso, note que este item tem uma correlação total de
itens negativos (o que é uma boa maneira de detectar se você possui um potencial
item com pontuação inversa nos dados que não foram marcados de forma reversa).
Finalmente, observe que, para o item 3, o item α se excluído é .8. Ou seja, se esse item
fosse excluído, a confiabilidade melhoraria de aproximadamente 0,6 a cerca de .8. Isso,
espero, ilustra que, ao invés de reverter, os itens que foram formulados de forma
oposta a outros itens na escala prejudicarão sua análise de confiabilidade.