Você está na página 1de 9

Andy Field

Cap. 1: Introdução

Saída = modelo + erro

Tipos de Erros

Desvio Médio: a soma dos desvios da média é sempre 0. Por isso, para calcular o desvio médio
precisamos usar a média dos módulos dos desvios da média.
||𝑋𝑖−𝑋 || ||𝑋𝑖−𝑋 ||
| | | |
𝐷𝑀 = ∑ 𝑁
ou 𝐷𝑀 = ∑ 𝑁−1

Se estamos interessados em estimar apenas o erro na amostra, usamos N, mas se estamos interessados
em usar o erro na amostra para estimar o erro na população, usamos graus de liberdade (N - 1).

Variância: ao invés de usar o módulo, eleva as médias ao quadrado.


∑(𝑋𝑖−𝑋) ∑(𝑋𝑖−𝑋)
𝑠² = 𝑁
ou 𝑠² = 𝑁−1

Desvio Padrão: a variância é expressa em unidades quadradas, ou seja, não na mesma unidade de
nossas variáveis. O desvio padrão é a raiz quadrada da variância. É uma medida de quão bem a média
representa os dados. Quanto maior o DP, menos representativa é a média da amostra.

∑(𝑋𝑖−𝑋)
𝐷𝑃 = 𝑠 = 𝑁−1

Erro Padrão: é o desvio padrão das médias das amostras. É uma medida de quão representativa a
amostra pode ser da população.
𝑠
σ𝑥 =
𝑁

Distribuição Normal

Distribuição de Frequências
● Assimetria: falta de simetria, concentrada na esquerda (positivamente) ou na direita
(negativamente)
● Curtose: leptocúrtica (pontiaguda) e platicúrtica (achatada)
Em uma distribuição normal, os valores de assimetria e curtose são 0.

Escore Z: transformações dos escores para uma distribuição em que M=0 e DP=1.
𝑋−𝑋
𝑍= 𝑆
Intervalo de Confiança: o intervalo de confiança mais comumente usado é de 95%. Isto significa que
espera-se que em 100 amostras, pelo menos 95 reproduza o efeito desejado.

Testes uni e bilaterais: em testes bilaterais, o intervalo fica 2,5% em cada extremo do intervalo
(somando 5%). Porém, se sabemos qual o sentido do efeito, podemos usar testes unilaterais, em que o
intervalo tenha os 5% concentrados no extremo esperado.

Erro do tipo I: quando acreditamos que existe um efeito que não existe.
Normalmente α = 0, 05.
Isto é, se pegarmos 100 amostras, detectamos o efeito em 95 delas.

Erro do tipo II: quando acreditamos que não existe um efeito, mas ele existe.
Cohen sugere que a probabilidade máxima aceitável seria β = 0, 2.
Isto é, se pegarmos 100 amostras na qual um efeito existe, falharíamos em detectar esse efeito em 20
destas amostras.

Variação Sistemática: causada pelo efeito que estamos interessados.

Variação não-sistemática: causada por outra coisa, como diferenças naturais entre pessoas e
amostras.

O tamanho de efeito em uma população é intrinsecamente ligado a três outras propriedades


estatísticas:
1. o tamanho da amostra
2. o intervalo de confiança
3. o poder estatístico (habilidade do teste detectar um efeito daquele tamanho)
Cap. 3: Explorando os dados

Testes Paramétricos: assumem algumas hipóteses:


1. A amostra segue uma distribuição normal.
2. A variância deve ser a mesma para as diferentes populações consideradas.
3. Dados no mínimo ordinais
4. Independência: os dados dos participantes são independentes uns dos outros. A resposta de
uma pessoa não influencia na resposta de outra.

Boxplot: usado para encontrar valores atípicos (outliers).

Para saber se uma distribuição é normal, podemos verificar os valores da assimetria e curtose. Se os
escores-z dos valores forem maiores que 1,96 (α=0,05) significa que a assimetria e a curtose
significativamente diferentes de 0, e a distribuição não é normal.

Corrigindo problemas nos dados (remover, transformar, substituir)


● Remover o caso
● Substituir o valor
○ Próximo score mais alto adicionado de 1
○ A média mais três desvios padrão
○ A média mais dois desvios padrão
● Transformar os dados
○ Feito de qualquer modo em distribuições não normais
○ Mesmo se você tiver apenas uma variável com distribuição assimétrica, ainda deve
transformar qualquer outra variável que será comparada.
○ Transformações com assimetria positiva: Logarítmica, Radiciação, ou Recíproca
○ As vezes a transformação pode diminuir a assimetria positiva de um grupo, mas
aumentar a de outra. Nestes casos, é necessário ponderar se vale a pena a
transformação.

Executando a análise para diferentes grupos: Data-Split File (SPSS) - Filtro (JAMOVI)

Testando se a amostra é normal: testa se a distribuição é significativamente (p < 0,05) diferente de


uma distribuição normal. Se a análise contém vários grupos, o que importa não é a distribuição global,
mas de cada grupo.
Cuidado, com amostras grandes, é fácil obter valores significativos a partir de pequenos desvios,
quando não necessariamente o desvio da normalidade é suficiente para prejudicar os procedimentos
estatísticos que seriam aplicados.
● Teste Kolmogorov-Smirnov (K-S): relatado como “D(gl)=statistic, p<0,05”
● Teste Shapiro-Wilk

Testando a homogeneidade da variância:


● Teste Levene: você pode fazê-lo transformando as variáveis. Primeiro faça sem transformação
e cheque se a estatística baseada na média é significativa. Se for, a distribuição da variável não
é homogênea e você pode tentar transformá-la.
Se de primeira um grupo for homogêneo e outro não, e após transformar ambos, a relação se
inverte, você pode transformar apenas um deles se não pretender comparar os dois entre si.
Cap.4: Correlação

Covariância: o quanto duas variáveis variam conjuntamente. É calculada pelo produto dos desvios da
média de cada variável, sobre o número de observações (ou N - 1).
∑ (𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦)
𝑐𝑜𝑣 (𝑥, 𝑦) = 𝑁−1

● A covariância, no entanto, está atrelada a unidade de medida da escala. Por exemplo, se a


escala medir uma variável em metros ou quilômetros, a covariância será diferente. Por isso,
não podemos comparar covariâncias entre grupos com unidades diferentes.

Coeficiente de Correlação: Visando superar essa dificuldade da covariância, podemos padronizar-la


expressando-a (dividindo-na) em desvios padrões.
∑ (𝑥𝑖 − 𝑥) (𝑦𝑖 − 𝑦)
𝑐𝑜𝑣(𝑥,𝑦)
𝑟 = 𝑠𝑥𝑠𝑦
= (𝑁 − 1) 𝑠𝑥𝑠𝑦

Pressupostos:
● Dados Normais
● Dados mensurados em um intervalo

Coeficiente de Determinação (R²): o quanto de variação as variáveis compartilham.

Correlação de Spearman: usada para dados ordinais ou não-normais.

Tau de Kendall: também não-paramétrico, deve ser usado quando se tem um conjunto pequeno de
dados com muitos postos empatados.

Correlações Bisserial e Bisserial por ponto: usados quando uma das variáveis é dicotômica.

● Bisserial por ponto: usada quando a variável dicotômica é discreta (exemplo: vivo ou morto,
não há continuidade)
● Bisserial: usada quando a variável dicotômica é contínua (exemplo: aprovado ou não
aprovado, há continuidade, há pessoas mais ou menos aprovadas).

Correlação Parcial: correlação entre duas variáveis, em que os efeitos de outras variáveis são
constantes. É usada para descobrir o pedaço único de variação compartilhada entre duas variáveis,
controlando as outras.
Cap. 7: Comparando duas médias

Atribuindo dados e apresentando médias com diagramas de barras de erro


Delineamento entre grupos
Delineamento de medidas repetidas
● Calcular média para cada participante
● Calcular a média geral
● Calcular o fator ajustamento
● Criar os valores ajustados para cada variável
● Traçar o'diagrama de barras de erros

Testando diferenças entre médias: o teste t

O teste t dependente
● Distribuições amostrais e o erro padrão
● Equação
● teste t dependente usando spss
● saidas
● Calculando o tamanho do efeito
● Relatando o teste t dependente

O teste t independente

Entre grupos ou medidas repetidas


Cap. 8: ANOVA

Taxas de erros infladas: se fazemos múltiplos testes-t, inflamos as taxas de erro, pois cada teste terá
5% de chance de errar. Um terceiro teste aumentaria o erro para cerca de 15%, e um décimo para 40
(1-0,95n).

ANOVA como regressão:


Saídai = (Modeloi) + erroi
Exemplo do Viagra: Libidoi = bo + b2Altai + b1Baixai + erroi
bo = grupo controle
b2Altai = grupo de alta dosagem
b1Baixai = grupo de baixa dosagem

Soma dos quadrados Total (SST): para encontrar a variação total dentro dos nossos dados calculamos
as diferenças entre cada valor observado e a média geral (média de todos os valores).
2
SST = ∑(𝑥𝑖 − 𝑥 𝑔𝑒𝑟𝑎𝑙)

Soma dos quadrados do Modelo (SSM): quanto o modelo de regressão pode explicar desta variação.
Calcular a soma das diferenças entre a média de cada grupo e a média geral, elevando cada uma dessas
diferenças ao quadrado, e multiplicando cada resultado pelo número de participantes dentro de cada
grupo (nk).

SSM = ∑ 𝑛𝑘(𝑥 − 𝑥 𝑔𝑒𝑟𝑎𝑙)²

Soma dos Quadrados dos Resíduos (SSR): quantidade de variação causada por fatores estranhos,
como diferenças individuais de peso. Diferença entre o escore obtido pela pessoa e a média do grupo
que ela pertence.

SSR = ∑(𝑥𝑖𝑘 − 𝑥 𝑘)²

Médias ao quadrado: como SSM e SSR são somas, seu valor é influenciado pelo número de valores
adicionados. Para eliminar este viés, divide-se a soma pelos graus de liberdade.
𝑆𝑆𝑚
MSM = 𝑔𝑙𝑀

Razão F: testa o ajustamento global de um modelo de regressão a um conjunto de dados. Pode ser
calculada pela divisão da média dos quadrados do modelo pela média dos quadrados dos resíduos.
𝑀𝑆𝑀
F= 𝑀𝑆𝑅

Suposições da ANOVA: as mesmas dos testes paramétricos. Dados normais, variâncias homogêneas,
variáveis independentes, e a variável dependente deve ser mensurada pelo menos em uma escala de
intervalo.
Estas suposições não são totalmente inflexíveis:
● Quando a variável dependente é dicotomica: quando os tamanhos dos grupos eram iguais, a
anova era precisa quando existiam pelo menos 20 gl, e a menor categoria continha no mínimo
20% de todas as respostas.
● Quanto à violação da homogeneidade: a ANOVA é robusta quando os tamanhos amostrais são
iguais. Contudo, quando são diferentes: quando grupos com grandes tamanhos amostrais
apresentam variâncias maiores do que grupos com n menores, a razão F resultante tende a ser
conservadora. Ou seja, é mais provável obter um resultado não-significativo mesmo quando
existe uma diferença genuína na população. Já quando os grupos grandes apresentam
variâncias menores do que os pequenos, a razão F tende a ser liberal.
○ Há testes para amostras não homogêneas na ANOVA.

Contrastes: a razão F não informa quais grupos diferem, apenas que há diferença. Logo é preciso
realizar mais análises.
● Contrastes planejados: quando temos hipóteses sobre a direção do efeito. Divide a variância
do modelo nas suas parcelas componentes.
● Testes post hoc: quando não temos hipóteses específicas. Compara cada grupo (como um
teste-t) mas utilizando um critério de aceitação mais restrito de forma que o erro conjunto não
ultrapasse 5%. No entanto, desta forma, o teste perde poder estatístico, podendo falhar em
detectar um efeito que realmente existe.
○ Correção de Bonferroni: divide o valor de a pelo número de comparações. Exemplo:
um valor a = 0,05, assumindo 10 testes, ˜viraria˜ 0,005.

Definindo Contrastes Ponderados:


Regras:
1. Compare somente duas porções de variação e que se um grupo é isolado, então esse grupo
deve ser excluído de qualquer comparação subjacente
2. Grupos codificados com ponderações positivas serão comparados com grupos codificados
com ponderações negativas.
3. A soma das ponderações para uma comparação deve ser 0.
4. Se um grupo não está envolvido em uma comparação, atribua automaticamente o peso 0.
5. Para um dado contraste, os pesos atribuídos aos grupos em uma porção da variação deve ser
igual ao número de grupos na porção contrária da variação

Exemplo: Libidoi = bo + b1Contraste1 + b2Contraste2 :


b0 = grupo controle
b1 = diferença entre dose baixa e grupo-controle
b2 = diferença entre dose alta e grupo-controle
● Contrastes Ortogonais: quando a soma dos produtos dos pesos dos contrastes é 0, as
comparações serão ortogonais, ou seja independentes.
● Contrastes não-ortogonais: são comparações que estão de alguma forma relacionadas. Nada
existe de errado com este procedimento, porém deve-se utilizá-lo com níveis de probabilidade
mais conservadores, de forma que a estatística não infle muito.

Contrastes Polinomiais: testa as tendências nos dados (linear, quadrática, cúbica, quártica). A
tendência quartica precisa de pelo menos 5 grupos; a cúbica 4, grupos; a quadrática, 3 grupos; e a
linear, 2 grupos.

Testes de Welch e Brown-Forsythe: usados quando a hipótese da homogeneidade das variâncias é


violada. Fica na janela de "opções" da ANOVA no SPSS. Andy sugere relatar o F de Welch, no lugar
do de Brown-Forsythe, a menos que você tenha uma medida extrema que esteja causando problemas
com a variância.
Tamanho de Efeito: a medida de tamanho de efeito é levemente tendenciosa, pois é puramente
baseada nas somas dos quadrados da amostra e nenhum ajuste é feito para o fato de que estamos
tentando estimar o tamanho de efeito na população. Portanto, muitas vezes utilizamos o ômega
quadrado (⍵2), que utiliza a variância explicada pelo modelo e o erro da variância.
2 𝑆𝑆𝑚 2 𝑆𝑆 𝑀
− (𝑔𝑙 𝑀
) 𝑀𝑆 𝑅
𝑅 = 𝑆𝑆𝑡
ω = 𝑆𝑆 + 𝑀𝑆
𝑇 𝑅

● Na maioria das vezes não é interessante termos um tamanho de efeito para toda a ANOVA
porque ela está testando uma hipótese geral. Em vez disso, o que queremos são tamanhos de
efeito para os contrastes (porque eles comparam apenas duas coisas). Comparações planejadas
são testadas com estatísticas t e, dessa forma, podemos utilizar a equação:
2
𝑡
𝑟 𝑐𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 = 2
𝑡 + 𝑔𝑙

Relatando resultados da ANOVA: "Existe um efeito significativo do Viagra nos níveis da libido, F(2.
12) = 5.12, p < 0.05, ⍵ = 0.6".
Cap. 13: Testes não-paramétricos

Comparando duas condições independentes:


Teste da soma dos postos de Wilcoxon e Teste de Mann-Whitney:

Organiza os dados, ignorando a qual grupo cada um pertence, do menor pro maior. Atribuindo valores
1, 2, 3… Se não existir diferença entre os grupos, a soma das posições de escores do grupo 1 seria
igual a soma das posições dos escores do grupo 2. Se existir diferença, tais somas serão
significativamente diferentes.

● Teste Kolmogorov-Smirnov Z
● Reações extremas de Moses
● Corridas de Wald-Wolfowitz

Diferenca entre vários grupos independentes:


O Teste (ANOVA) de Kruskal-Wallis:

De forma semelhante à soma dos postos de Wilcoxon ou Teste Mann-Whitney, ordena os escores do
maior para o menor. A soma dos postos de cada grupo é representada por Ri. A estatística teste H é
calculada abaixo, sendo N, o total da amostra, ni o tamanho amostral de cada um dos grupos, e k, o
número de grupos.
𝑘 𝑅
2
12 𝑖
𝐻 = 𝑁 (𝑁+1)
∑ 𝑛
− 3(𝑁 − 1)
𝐼=1 𝑖

● Testes post-hoc: executar testes Mann-Whitney entre os grupos.


● Teste de tendência de Jonckheere-Terpstra: conferir a previsão de que as médias vão subir ou
diminuir.

Relatando os resultados: Exemplo:


● Relatar estatística, teste, graus de liberdade, e significância:
“A contagem de espermatozoides foi significativamente afetada pela ingestão de refeições
com soja (H(3) = 8,66, p< 0,05)”.
● Relatar correção do erro:
“Uma correção de Bonferroni foi aplicada e todos os efeitos foram testados no nível de 0,0167
de significancia”.
● Relatar contrastes:
“Testes de Mann-Whitney foram usados, e pareceu que a contagem de espermatozoides não
apresentou diferenças com uma refeição com soja por semana (U = 191, r = -0,04)”.
● Relatar tendencia observada:
“O teste de Jonckheere revelou uma tendência significativa nos dados de quanto mais soja é
ingerida mais a mediana da contagem de espermatozoides decresce, J = 912, z = -2,48, r =
-0,28.

Você também pode gostar