Escolar Documentos
Profissional Documentos
Cultura Documentos
Apontamentos
- Uma investigação é, por definição, algo que se procura. É um caminhas para um melhor
conhecimento e deve ser aceite como tal. Com todas as hesitações, desvios e incertezas que isso
implica.
1. intuição
2. tradições e autoridade
3. experiência pessoas
4. raciocínio logico
1) Passa palavra
2) Desejo de respostas fáceis e soluções rápidas
3) Memória e perceção seletivas
4) Inferência de causalidade a partir de correlações
5) Falácias (silogismo vicioso)
6) Observação de amostras enviesadas
7) Raciocínio por representatividade
8) Filmes enganosos e representações de media
9) Exagero do núcleo de verdade
10) Confusão terminológica
metodologia científica
Etimologia: “meta” -> ao longo de…; “odos” -> via, caminho; “logia” -> ciência, discurso, estudo dos
caminhos, dos instrumentos para fazer ciência
1
- Existem 4 objetivos do conhecimento científico:
I. Exploração
II. Descrição: descrever a estrutura e o modo de funcionamento de um determinado
fenómeno, responde à pergunta “o quê?”
III. Explicação: “como?” e “porquê?”
IV. Predição: o que devemos esperar? Como irá funcionar?
a. Informações disponíveis
b. Indução: observar casos e situações especificas para desenvolver conclusões gerais,
ou seja, vai do particular para o geral; reunir informações, utilizar conhecimentos
para explicar uma situação
c. Hipóteses
d. Dedução: partir de generalização para casos particulares, o que pode acontecer se
a hipótese for verdadeira.
2
- Características do método científico:
i. Objetivo
ii. Empírico
iii. Racional
iv. Replicável
v. Sistemático
vi. Metódico
vii. Comunicável
viii. Analítico
ix. Cumulativo
- M. Quantitativos
Nível concetual:
Nível metodológico:
3
Nível da relação teoria-prática:
▪ Parte sempre da teoria, tentando testá-las, verificá-las e comprová-las, bem como das
hipóteses.
▪ O plano de investigação, a partir do momento em que se começa a recolher dados, deve ser
estático e estruturado, ou seja, os conceitos, as variáveis e as hipóteses não devem alterar-se
ao longo do decorrer da investigação.
- M. Qualitativos
Nível concetual:
▪ Não se estudam os comportamentos, mas sim objetos abstratos como as intenções e situações
4
▪ Estudos em profundidade, estamos interessados na opinião da própria pessoa e não das
massas, ou seja, investiga as ideias, descobre significados de ações individuais e de interações
sociais a partir da perspetiva dos atores intervenientes no processo (de recolha de dados)
Nível metodológico:
▪ Recorre ao método indutivo – parte da análise de cada caso em particular, partindo depois
para a generalização, analisa-se um a um até se detetar um padrão
▪ Mais importante do que o rigor é a relevância dos significados, o investigador não pode ter
uma posição externa, pois o investigador realiza uma entrevista criando uma maior ligação.
Não necessita de um guião fixo da entrevista, tendo por isso, alguma flexibilidade de forma a
analisar aquilo que a pessoa considera mais relevante. → Isto não significa que não haja rigor!
Devemos é ter uma atenção extra, pois até as expressões faciais podem mostrar algo que faz
com que os participantes se comportem e respondam de forma diferente à entrevista.
▪ Não se pretende generalizar, mas sim particularizar, estudando os dados a partir de situações
concretas.
5
Numa investigação é possível integrar
diferentes metodologias, ou seja, podemos
usar os dois tipos de métodos pois estes não
se contradizem, sendo o mais comum usá-los
de forma sequencial, embora também seja
possível usar em simultâneo (ex.: administrar
uma escala e no fim ter algumas questões
abertas).
6
➢ Objetivo do estudo:
1. descritivas (objetivo e puramente descrever a realidade, sem que haja qualquer tipo
de alteração – se usarmos a par de um estudo quantitativo usam-se a estatística
descritiva, que permite caracterizar o fenómeno que pretendemos estudar),
1. estudos de caso único – mais comuns são qualitativos, embora possam ser
qualitativos
2. grupos – grupo experimental, grupo de controlo
7
Existe uma relação bidirecional entre a hipótese operacional e os métodos de investigação
(amostra, instrumentos…) uns ajudam a formar e a definir os outros, estando em modulação
permanente, informam-se mutuamente.
Para testar hipóteses precisamos de estatística inferencial, mas todos começam com
estatística descritiva, primeiro descrevo a realidade e depois faço inferências sobre ela. Ao
aplicar as analises estatísticas em cima dos dados em bruto (informação bruta que recolhemos
diretamente dos participantes) estamos a retirar resultado. – Assim o conhecimento de
procedimentos estatísticos, torna-se extremamente importante e permite-nos analisar a
informação que recebemos, sendo o treino estatístico considerado um treino na utilização de
uma parte do método científico.
Ex: cada idade é um dado bruto, mas o que nos apresentamos é a media, podem ser
apresentados na forma de tabela, gráficos ou quadros.
Os resultados devem produzir determinadas conclusões que devem ser sempre analisadas a
luz da literatura, ou seja, do nosso ponto de partida. Posso ver que os meus resultados vão
contra, acrescentam ou concordam com aquilo que está na literatura e na teoria.
b) análise de dados
c) estatística
8
→ Ramo da matemática que se foca na organização, análise, e interpretação de um grupo de
números
d) tipos de estudos
1. descritivos
2. correlacionais
3. experimentais
1. Desenho pré-experimental
- Não têm quase nada do que é importante para fazer estudos experimentais
9
- Não temos uma forma de ver se aquilo que
medimos se deve de facto a condição que
alteramos, ou seja, tem um reduzido controlo
experimental.
- Tem um grupo de participantes, que são avaliados no pós-teste
- Não há manipulação da VI
- aleatoriazação dos participantes, o que permite que haja equivalência entre os mesmos
- As diferenças entre pré e pós-teste devem-se à manipulação da VI
- Riscos de contaminação entre testes – mesmo teste num período de tempo curto (recordar-
se do que responderam antes para mostrar que são consistentes ou tentam mostrar que
10
melhoraram preenchendo a escala nesse sentido). Para melhorar podemos usar o plano de
Solomon – usar 4 grupos, dois experimentais e 2 de controlo.
- Há 4 tipos de desenho experimental
f) População e amostra
11
✓ Probabilística: técnica que permite a seleção aleatória (fruto do acaso) dos elementos de
uma população para formar uma amostra
✓ Não-probabilística: processo pelo qual todos os elementos da população não têm uma
probabilidade igual de serem escolhidos para fazerem parte da amostra
Delimitar a população
Delimitar a população acessível
Especificar os critérios e seleção
Definir os planos de amostragem
Determinar o tamanho da amostra
Proceder à amostragem
Representatividade
– todas as características da
população-alvo têm igual
probabilidade de estar
representadas na amostra,
tanto as variáveis em estudo
como outras que possam ter
impacto no nosso estudo.
Significância
12
Erro de amostragem
- É a diferença entre os resultados obtidos na amostra e os que teriam sido obtidos se tivesse
sido feito o estudo com a totalidade da população. Quanto maior for este erro menor vai ser a
representatividade da amostra.
→ Erro de representatividade
→ Erro aleatório
h) variáveis
- Definição clara dos conceitos em estudo em termos das operações ou técnicas usadas para os
medir
Valores da variáveis
→ Ativas ou manipuladas – são as variáveis que têm pelo menos um nível, sendo
atribuídas a um conjunto de participantes durante um determinado espaço de tempo.
→ Atributo ou medida que – atribuem um valor a uma característica preexistente das
pessoas que constituem a população em estudo e que não sofrem alteração durante o
estuo (ex.: sexo, idade)
13
Quantitativas: definem características mensuráveis expressas em valores numéricos
➔ Discretas – números inteiros, separados uns dos outros e não sabemos quais são os
intervalos
➔ Contínuos – incluem todos os valores possíveis num intervalo incluindo as casas decimais
- Ordinais: os dados estão ordenados por ordem de grandeza, seja de forma crescente ou
decrescente, não sendo possível calcular os intervalos (as diferenças) entre os valores.
NOTA: itens Likert individuais são variáveis ordinais, quando se agrupam numa subescala
são variáveis intervalares.
Os diferentes niveis
de medida são
definidos e usados de
acordo com os
procedimentos
estatísticos que se
vão aplicar, em testes
não paramétricos
utilizam-se apenas
variáveis nominais e
ordinais, enquanto
em testes
paramétricos se usam
variáveis intervalares
e de razão.
14
NOTA: apenas os estudos que têm variáveis independentes ativas, como os estudos
experimentais e os quase experimentais, podem fornecer dados que permitam inferir que foi a
manipulação da VI que causou a alteração da VD.
- Variáveis moderadoras ou intermediárias: são usadas para estudar possíveis efeitos sobre a
interação entre a VI e a VD
Para ser feito um bom controlo das varáveis devem ter cumpridos os seguintes parâmetros:
1. Intra-grupo (no SPSS aparece como paired sample) - o mesmo grupo de participantes é avaliado em
dois momentos permitindo fazer a comparação entre pré-teste e pós teste.
15
2. Inter-grupos (no SPSS aparece como independente sample) - Comparamos dois grupos
independentes no mesmo momento → pós-teste
Pré-teste – momento de avaliação que ocorre antes da VI ser manipulada, ou seja, antes que o
investigador intervenha
O problema de investigação:
16
O problema de investigação é analisar se (VI1) (e VI2, se existir), (e VI3, se existir) estão
relacionados com (VD1) (e VD2, se existir) em (população).
Níveis de estudo:
Quando ambas as variáveis estão ordenadas e são contínuas, e se pretende associar duas ou
mais variáveis e ver a forma como variam uma em relação à outra.
E.g.: Existe uma associação estatisticamente significativa entre os resultados a português e os resultados a
matemática, em alunos do e. secundário?
E.g.: Existe alguma relação entre as habilitações académicas das mães e o número de livros que as crianças possuem
em casa aos cinco anos de idade?
E.g.: Que tipo de relação existe entre o NSE e a violência doméstica?
17
Hipóteses de investigação:
Regras de formulação:
1. Curva normal
A moda = média = mediana
A média da curva normal é o ponto abaixo do qual e acima
do qual se encontram 50% dos casos. A maioria dos casos
encontra-se perto da média e vai diminuído consoante se
dirigem para a periferia.
Como calcular a curtose para ver se nos indicam uma curva normal ou uma assimetria. No SPSS
pedimos que calcule a curtose, abaixo tem o erro padrão da curtose, pegar na assimetria e dividir por
esse erro padrão. Isto é o z score – deve ser próximo de 0 ou então estar no intervalo entre -/+ 1.96 de
forma a ser considerada simetria normal.
18
2. Teste de significância
19
B) Estatística inferencial: Valor numérico ou operação que permite a generalização de
resultados obtidos junto de uma amostra à população da qual provém
Fazemos a análise exploratória dos dados (para os dois últimos pontos) para decidir se
fazemos uma análise paramétrica ou não paramétrica, ou seja, escolhe em função da análise
dos dados da análise exploratória – ela permite calcular a normalidade dos dados, permitindo
comparar os dados da nossa amostra com a curva normal, vai dar dados sobre a assimetria e a
curtose. Se seguirem podemos usar testes paramétricos.
20
Como escolher a técnica estatística adequada?
4. Analisar os dados
21
Introdução ao SPSS
Codificação, inserção, e confirmação dos dados
– Realizar a codificação
1. Preparar uma folha de codificação: tomar decisões sobre como codificar os dados,
especialmente nos casos em que os dados não são numéricos
2. Confirmar os questionários preenchidos na íntegra: procurar dados incompletos, poucos
claros, e respostas duplas
3. Criar regras para lidar com os problemas identificados: para cada tipo de problema
(resposta incompleta, pouco clara, em branco, ou dupla) identificar a regra; e aplicar a regra de
forma consistente para todos os problemas semelhantes
4. Aplicar as regras aos questionários no momento da inserção de dados
– Codificar os dados para a sua inserção: processo de atribuir números aos valores/ níveis de
cada variável
1. Todos os dados devem ser numéricos: apesar de ser possível usar letras ou palavras, não é
desejável fazê-lo no SPSS. Converter tudo para números (e.g., 1 masculino, 2 feminino → dummy
variable)
2. Cada variável para cada participante deve ocupar a mesma coluna no Data Editor: cada
participante ocupa apenas uma linha, e cada coluna deve conter dados da mesma variável
para todos os participantes
3. Todos os valores para uma variável devem ser mutuamente exclusivos: um e apenas um
valor deve ser atribuído a cada variável; quando são permitidas mais respostas à mesma
variável, dividir em variáveis separadas
4. Cada variável deve ser codificada para obter o máximo de informação: não conjugar
categorias ou valores; se necessário fazer depois (e.g., idade)
5. Para cada participante, deve existir um valor para cada variável: deixar a célula em branco
apenas quando o participante não respondeu; caso contrário preencher com o valor adequado
6. Aplicar qualquer regra de codificação de forma consistente para todos os participantes:
codificar todas as respostas de todos os participantes de igual modo
22
7. Usar números elevados para dimensões positivas: 5 para “concordo fortemente”, ou
“muito satisfeito”, e 1 para “discordo fortemente” ou “muito insatisfeito”
– Questões abertas: usam-se se o nível de medida for métrico os valores recolhidos são reais,
e não é necessária a codificação das respostas
Missing values: escolher um valor de substituição de entre os números que não são utilizados
na codificação; para que este valor não seja utilizado nos cálculos deve ser definido nos valores
omissos
Análise de dados
Estatística descritiva:
2. Medidas de dispersão
➢ Frequências: número de vezes que cada valor da variável aparece
➢ Intervalo interquartil: 50% centrais da distribuição -diferença entre o 1º e o 3º quartil
(quartil divide a distribuição em 4 partes iguais)
➢ Desvio-padrão: média dos desvios em relação à média; raiz quadrada da variância
➢ Variância: média dos quadrados dos desvios em relação à média
23
• Distribuição simétrica: z-score tende para o valor zero;
[-1.96;1.96]
• Distribuição enviesada à esquerda:
assimetria positiva; o z-score está acima
de 1.96
• Distribuição enviesada à direita:
assimetria negativa; o z-score está
abaixo de -1.96
4. Tabelas de frequência
➢ Permite organizar os dados
recolhidos agrupando-os em
categorias
➢ Cada categoria está associada ao
respetivo número de ocorrências
➢ Possui frequências, percentagens, frequências acumuladas e % acumuladas, organizadas
em 4 colunas
➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Frequencies → Selecionar a
variável pretendida na janela esquerda e clicar na seta central para transportá-la para
Variable(s) → Clicar OK
24
6. Relacionar dados de duas variáveis
➢ COMANDOS DO SPSS: Analyze → Descriptive
Statistics → Crosstabs → Selecionar as variáveis
pretendidas na janela esquerda e clicar na seta
central para transportá-las para Row e Column
respetivamente→ Clicar em Cells e selecionar:
Counts – Observed; Percentages - Row, Column, ou
Total → Clicar OK
7. Gráficos
➢ COMANDOS DO SPSS: Graphs → Legacy Dialogs → Pie → Na janela Pie Charts selecionar
Summaries for groups of cases → Define → Selecionar a variável o quadro da
esquerda colocá-la no quadro Define slices by → Selecionar Title e atribuir
um título ao gráfico → Selecionar OK
25
7.3 Histograma: No eixo horizontal estão os valores da variável e
no eixo vertical a frequência de cada valor da variável; pode
analisar- se o enquadramento gráfico dos dados face à curva de
normalidade
Transformação de dados
26
3) Substituição de valores em falta (missing values)
Seleção de dados
Estatística inferencial: permite testar hipóteses, ou seja, examinar se uma asserção relativa a
uma ou várias populações pode ou não ser confirmada
Não existe – Utiliza-se testes paramétricos quando as variáveis são métricas e testes não-paramétricos
consenso quando as variáveis são ordinais
acerca dos
procedimentos – Utiliza-se testes paramétricos quando as distribuições são normais e as variâncias
que é homogéneas, tanto com dados ordinais como com dados métricos
adequado
utilizar – Os testes paramétricos constituem os procedimentos básicos, a não ser que os dados sejam
tão poucos que os testes não paramétricos se revelem suficientes
27
Análise Exploratória de Dados – serve para
verificar se estão ou não cumpridos os
pressupostos subjacente à utilização de
testes paramétricos.
Antes de saber que correlação vou fazer a AED
para testar a normalidade, se foram normais (e
scale) fazemos Pearson, se não forem normais
timos de descer um nível e fazer Spearman.
NOTA: neste tipo de analise a assimetria e a curtose devem estar compreendidas entre
+1 e -1, sendo que quanto mais perto de 0 melhor. Devemos também analisar a caixa
de bigodes: a sua simetria; caixa central é delimitada inferiormente pelo percentil 25 e
superiormente pelo percentil 75; a linha mais carregada dentro da caixa é a mediana; a
linha inferior representa o valor mínimo e a linha superior representa o valor máximo
NOTA: Quando a pergunta é
“qual é a relação” não há VD
nem VI, colocam-se as
variáveis na dependent list.
1. Normalidade
➢ A normalidade permite verificar aquilo que teoricamente seria considerada uma amostra
normal – compara com uma distribuição teórica (que seria a normal)
p > 0,05 → Aceitamos H0 o que significa que há normalidade (logo usa-se teste
paramétrico – Pearson)
p < 0,05 → Aceitamos H1 o que significa que não há normalidade (logo usamos testes
não paramétricos – Spearman)
28
a) Teste de Kolmogorov-Smirnov
2. Homogeneidade
➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Explore → Selecionar
no quadro da esquerda a variável de teste quantitativa e enviá-la para o quadro
da direita Dependent List → selecionar a opção Plots → Spread vs Level with
Levene test → Untransformed → Clicar OK
Teste de Homogeneidade de Variância
Estatística de
H0 diz que a hipótese é homogénea e H1 Levene gl1 gl2 Sig.
diz o contrário logo: QuantidadeInformação Com base em média 1,341 1 121 ,249
Com base em mediana 1,760 1 121 ,187
29
Qui-quadrado (teste de independência)
• Teste não-paramétrico utilizado para verificar a existência
de uma relação entre duas variáveis nominais (ou uma v.
nominal e uma v. ordinal)
• A comparação da distribuição de L grupos em C categorias
leva-nos a construir uma tabela de L x C células → tabela de
contingência
• H0: Não há associação → p > 0,05 𝑋 2 (gl) = statistic, p = sig
• H1: Há associação → p < 0,05
gl= Estatística de Levene, p = sig
• Valor próximo de 1 significa correlação perfeita
➢ Sempre que o valor de a for igual ou superior a 20% diz que os valores não são de
confiar, mas interpretamos na mesma.
➢ Depois de ler esta tabela lê-se a 2ª para entender a força e o sentido da correlação,
devendo mencionar o mínimo e o máximo.
Coeficiente de correlação
• A correlação mede apenas o grau de associação entre variáveis (X Y) não constituindo nunca,
isoladamente, uma prova de relação de causa-efeito!
30
• Pontuação
Correlações >0.70 são altas
Correlações entre 0.40 e 0.50 são moderadas Correlação = statistics, p = sig
Correlações inferiores a 0.40 são baixas
❖ Há 3 tipos de correlação
1) Coeficiente de correlação de Spearman
✓ duas variáveis ordinais ou 1 variável ordinal com 1 variável intervalar
✓ não paramétrico
r = statistics, p = sig
31
Testes paramétricos e não paramétricos
32
Testes paramétricos
(aplicam-se os 4 pressupostos: são grupos independentes, aleatórios, com normalidade e homogeneidade)
33
✓ P > 0,05 então aceitamos H0, ou seja, não existem diferenças
estatisticamente significativas entre os grupos, por isso não continuamos
a análise.
✓ P < 0,05, então rejeitamos H0 e aceitamos H1, o que significa que há uma
diferença estatisticamente significativa entre as variáveis, por isso
continuamos a análise.
o Na 4ª tabela – lemos as comparações múltiplas
✓ Analisamos a diferença média e o sig de cada variável
✓ Se p < 0,05 então há uma diferença estatisticamente significativa –
podemos (e devemos) voltar a primeira tabela para ver as médias e
comparar.
✓ Se p > 0,05 então não há uma diferença estatisticamente significativa
entre as variáveis. (a intervenção não serviu de nada)
34
✓ Se p < 0,05 então há uma diferença estatisticamente significativa –
podemos continuar a analisar, na tabela 5
✓ Se p > 0,05 então não há uma diferença estatisticamente significativa
entre as variáveis.
o Na tabela 5 – teste de scheffe
✓ Vemos as relações entre as variáveis, analisando as diferenças e
semelhanças
35
✓ Se p < 0,05 então aceitamos H1 que afirma que há diferença
✓ Se p > 0,05 então aceitamos H0 que afirma que não há diferenças
✓ Depois voltamos à 1ª tabela, a que indica as médias para fazer a
comparação dos valores.
Variáveis em comparação: p = sig
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas discritivas, diferenciando entre grupos
o Na tabela 2 – lemos o teste de levene (homogeneidade)
✓ Levene → F = valor debaixo de F, p = sig
36
• Se p > 0,05 então aceitamos H0, o que significa que não há diferença
nas variâncias, ou seja, os dois grupos são equivalentes, logo posso
continuar a analise → lemos os resultados de t test na primeira linha
• Se p < 0,05 então rejeitamos H0 e aceitamos H1, ou seja, há
diferenças na homogeneidade e, por isso, lemos o valor de t test na
segunda linha.
✓ Resultados de t teste → t (gl), valor debaixo do t, p=sig
37
1. Teste de McNemar
➢ Aplica-se quando se pretende analisar as diferenças em amostras emparelhadas em 2
tempos mas em variáveis nominais dicotómicas
➢ COMANDOS SPSS: analyze → non parametric test → legacy dialogs → 2 related sample
→ McNemar → colocar a variável → options → descritivas → OK
➢ Análise de resultados:
o Na tabela 1 – não é necessário analisar
o Na tabela 2 – lemos as diferenças como se fosse uma crosstab
o Na tabela 3 – lemos o valor do teste de McNemar
✓ McNemar → X2 = valor qui-quadrado, p =sig
✓ Se p > 0,05 então aceitamos H0, o que significa que não há diferença.
✓ Se p < 0,05 então aceitamos H1, o que significa que há diferenças.
2. Teste de Mann-Whitney
➢ Aplica-se quando se pretende testar a igualdade de dois grupos diferentes,
independentes
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → 2 independent
sample → Mann-Whitney → colocar a variável em estudo no quadro da direita (test
variable list) → grouping variable (definir os grupos) → options → statistic → descriptive
→ OK
➢ Análise de resultados:
o Na tabela 1 – dá-nos a estatistica descritiva dos grupos
o Na tabela 2 – lemos as diferenças, a organização dos dados, como se fosse um
ranking
o Na tabela 3 – lemos o valor do teste de Mann-Whitney
✓ Mann-Whitney → U = valor statistics U, p =sig
✓ Se p > 0,05 então aceitamos H0, o que significa que não há diferença.
✓ Se p < 0,05 então aceitamos H1, o que significa que há diferenças.
✓ Vamos à tabela 2 e vemos qual é a direção da relação.
3. Teste de Wilcoxon
➢ Aplica-se quando se pretende testar a igualdade de dois grupos emparelhados
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → 2 related samples
→ Wilcoxon → colocar a variável dependente e independente → options → statistic →
descriptive → OK
38
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – lemos as mudanças a nível descritivo, nas negativas são aqueles
que consideram que houve uma diminuiçao da variavel. Já nas positivas são
aqueles que consideram que a variavel aumentou.
o Na tabela 3 – lemos o valor do teste de Wilcoxon
✓ Wilcoxon → Z = valor de z, p =sig
✓ Se p < 0,05 aceitamos H1, ou seja, existem diferenças do pré teste para o
pós teste. Voltamos à primeira tabela e vemos a diferença da média entre
tempos.
✓ Se p > 0,05 aceitamos H0, ou seja, não existem diferenças entre o pré teste
e o pós teste. Não continuamos a analisar.
4. Teste de Kruskal-Wallis
➢ Aplica-se quando se pretende testar a igualdade de três ou mais grupos independentes,
numa determinada variavel
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → K independente
samples → Kruskal-Wallis → colocar a variável em teste na coluna da direita (test
variable list) → colocar na grouping variable a variável qualitativa → define range (inserir
o intervalo dos grupos (o nmr do 1º que queremos analisar e o nmr do ultimo) → options
→ statistic → descriptive → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – lemos a organização dos resultados tipo ranking
o Na tabela 3 – lemos o valor do teste de Kruskal-Wallis → X2 (gl) = valor de H, p =sig
quadro da direita (test variable list) → grouping variable (definir os grupos) → options → statistic
39
→ descriptive → OK) temos de voltar à tabela das médias do Kruskal-Wallis para ver
a diferença das médias entre os 3 grupos
5. Teste de Friedmann
➢ Aplica-se quando se pretende comparar três ou mais tempos para um grupo
➢ COMANDOS SPSS: analyze → nonparametric test → legacy dialogs → k related samples
→ teste Friedmann → colocar a variável em análise na coluna da direita (test variable
list) → options → statistics → descriptive → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – passamos à frente
o Na tabela 3 – lemos o valor do teste de Friedmann→ X2 (gl) = valor de X2, p =sig
NOTA:
40
Regressões
A regressão é um modelo estático que permite prever qual será o comportamento de uma
variável quantitativa (Y), a partir de uma ou mais variáveis relevantes, que são por norma scale
(X), fornecendo informações importantes devido à margem de erro desse padrão.
NOTA: As variáveis independentes qualitativas podem também ser introduzidas no modelo sob
a forma de variáveis dicotómicas (com dois níveis apenas)
41
Cada observação tem uma constante
onde a reta passa o eixo vertical do [é o
alfa] e o valor da sua inclinação (cada
valor de x que aumenta então aumenta
o grau de inclinação da reta) [é o beta]
➢ Erro → quanto menor for a regressão maior vai ser o grau de erro
42
o Este método minimiza a soma do quadrado dos resíduos observados, ou seja,
diminui a distância vertical de cada observação à reta ajustada.
o Quanto menor o erro mais pequeno é o quadrado, melhor é o ajustamento da reta
aos nossos dados.
o A reta estimada através deste método é a que melhor se ajusta às observações, ou
seja, é a que melhor ajusta o modelo aos dados
➢ COMANDOS SPSS para calcular a reta de regressão linear: Graphs → legacy dialogs→
simple scatter → define → colocar as variáveis nos eixos (Axis)→ OK
o Depois do gráfico estar feito para colocar a linha normal - COMANDOS SPSS:
double-click no gráfico → elements → fit line at total
➢ Estimação e Previsão
o Ajustamento ao modelo para a estimação e previsao → usa-se a ANOVA para
ver se o modelo geral é estatisticamente significativo
✓ Por ter em conta o erro, o facto de ser aleatório não garante que o
valor previsto seja totalmente perfeito, ou seja, que se encontre
totalmente ajustado à reta, para que fosse perfeito não poderia haver
erro nenhum!! (a soma dos resíduos estimados teria de ser 0)
✓ As observações que se encontram acima da reta têm resíduos
positivos e as que se encontram abaixo têm resíduos negativos
✓ Por isso a qualidade das previsões é feita através do uso dos intervalos
de confiança.
✓ As medidas absolutas de qualidade do ajustamento vêm expressas
nas mesmas unidades das variáveis (erro padrão) e quanto menores
forem os seus valores, maior a precisão das previsões.
✓ As medidas relativas, não se exprimem em unidades, e representam o
grau de associação entre as variáveis (R) e o coeficiente de
determinação (R2) ou o coeficiente de determinação ajustado (R2 a).
✓ Quanto mais próximo o coeficiente de correlação (R) estiver de 1 ou -
1, ou quanto mais próximo o coeficiente de determinação (R2 ou R2 a)
estiver de 1, melhor é a qualidade de ajustamento do modelo em
termos amostrais
✓ R → coeficiente de correlação de Pearson
✓ R2 → coeficiente de determinação → traduz a quantidade da
variabilidade dos dados
o Previsão:
✓ Calcula-se uma estimativa para a variável
43
Ajustamento do modelo para estimar a reta
➢ COMANDOS SPSS: Analyze → regressão→ regressão linear → VI (preditora) e VD →
statistic → estimativas, intervalos de confiança, modelo fit, descritivas → OK
o Na 1ª tabela lemos as estatísticas descritivas
o Na 2ª tabela lemos os valores das correlações
o Na 3ª tabela lemos o model summary
✓ Neste encontra-se a percentagem de variância explicada – dá um valor X de
%, quando fica alguma percentagem por explicar é o erro e deve-se a fatores
não especificados.
o Na 4ª tabela lemos a ANOVA
✓ O teste F valida o modelo, sendo que valores de F elevados identificam uma
melhor qualidade do nosso modelo, são testes de inferências
✓ F = média quadrática da regressão a dividir pela média quadrática dos
resíduos
✓ Media quadrática da regressão = soma quadrática
da regressão faz-se o valor do Sum of Squares a
dividir pelos graus de liberdada e dá a média
quadrática da regressão (NA 1ª LINHA)
✓ Media quadrática residual = soma quadrática
residualfaz-se o valor do Sum of Squares a dividir
pelos graus de liberdada e dá a média quadrática
residual (NA 2ª LINHA)
o Na 5ª tabela lemos os coeficientes
✓ Permite ver o que cada fator contribui, individualmente, para a VD através
do Ajustamento do modelo: parâmetros individuais
• Tentamos compreender se cada parâmetro é estatisticamente
diferente da hipótese nula, ou seja, se são todos estatisticamente
significativos
• O teste t verifica se os parâmetros da constante (alfa) e da inclinação
da recta (beta) serem iguais a um determinado valor fixo
• O valor observado é o declive da reta
• O valor de t diz-nos se cada preditor é
ou não diferente
44
o A linha 1 dá-nos o valor de alfa (que é o valor de y quando x é 0) → este valor
por vezes é meramente teórico
o A linha 2 diz-nos o declive da reta, ou seja, por cada aumento de um valor de x
este é o valor de vendas que cresce ou decresce, cresce se for positivo, e
decresce se for negativo
45
COMANDOS SPSS para os 3 primeiros testes: Analyse → desceiptive statistcs →explore →usar
a nova variavel estandardizada com os resíduos da regressão, colocando-a na linha dos
dependentes → plots → steam-and-leaf →normality plots with test →OK
46
o A análise da covariância nula, ou da não autocorrelação dos resíduos e
complementada pelo teste de Durbin-Watson
o No Durbin-Watson lê-se o valor:
▪ Valores mais próxima de 2 não há autocorrelação entre os resíduos
▪ Valores próximo de 1 ou 0, autocorrelação positiva para um lado do
gráfico
▪ Valores próximos de 3 ou 4, autocorrelação negativa para o outro
➢ Outliers
o Apenas devem ser excluídos se a observação não fizer parte da população em
estudo
o São observações distintas que estão associadas a resíduos com valores
elevados, sendo a sua identificação fácil → vemos através dos resíduos
estandardizados e aqueles que têm valores absolutos que são superiores a
1,96 são outliers!!!
o Devem ser identificados, porque se não corresponderem a erros na introdução
dos dados, podem permitir conhecer novas características e segmentos válidos
da população em estudo
47
Modelos de regressão linear múltipla
➢ Tendência estatística, descritiva e inferencial que permite fazer uma análise de
relação entre as variáveis
➢ A análise desta relação é feita entre uma variável dependente e múltiplas variáveis
independentes
➢ As variáveis devem ser contínuas
o Podemos criar variáveis artificiais no caso de as variáveis independentes
não serem contínuas
o As variáveis artificiais são criadas a partir de variáveis nominais com três
ou mais categorias e são convertidas para variáveis nominais dicotómicas
o Criam-se K-1 variáveis artificiais (sendo K o total de categorias) → isto
permite que, no caso de existirem três ou mais níveis, haja
multicolinearidade
o COMANDOS SPSS: compute variable –> colocar nome →
colocar o valor que queremos assumir → fazer if igual aos
valores a que queremos que corresponda → OK
o COMANDOS SPSS missing values da variavel artificial: if →
~= do número que pusemos antes na variavel → OK
o A relação entre as variáveis e deve ser linear
48
❖ Sendo Xa a proporção da variação que não é explicada pelas
variáveis independentes
❖ Tolerância varia entre 0 e 1 → para considerar que há
multicolinearidade a tolerância deve ser abaixo de 0,1
Mais perto de 0 → maior multicolinearidade = menor
proporção de variação não explicada pelas outras VI´s
Mais perto de 1 → menor a multicolinearidade
❖ VIF
Mais perto de 0 → menor multicolinearidade
para considerar que há multicolinearidade o VIF
deve ser acima de 10
➢ Exploração dos dados
o Permite testar a linearidade entre as variáveis
o Utilizam-se diagramas de dispersão para visualizar os valores observados entre
as notas e cada uma das variáveis independentes
➢ Estimação e Previsão
o Métodos de inclusão de variáveis → o principal objetivo é estimar os
parâmetros do modelo. Há 5 métodos de inclusão:
1. Enter
a. É o método mais simples.
b. Todas as variáveis se inserem num grupo (“block”)
c. Não há pressupostos relativamente à importância de cada variável
d. Podemos usar uma forma hierárquica de introdução de variáveis no
modelo (ex: variáveis entram de acordo com a importância teórica →
variáveis com a mesma importância inserem-se no mesmo bloco)
e. OU podemos inserir todas as variáveis ao mesmo tempo e ver quais são
estatisticamente significativas
2. Remove
a. Após a introdução das variáveis no modelo, permite que seja testado o
efeito da remoção de uma variável no ajustamento do modelo
3. Forward
a. A variável com a correlação mais elevada é colocada em primeiro lugar
b. As restantes variáveis vão sendo acrescentadas de acordo com a ordem
decrescente (da mais alto para a mais pequena) de variância.
c. A análise termina quando não há mais variáveis que expliquem a
variância extra no modelo.
4. Backward
a. O modelo começa com todas as variáveis e vão sendo retiradas aquelas
que têm correlações mais fracas
5. Stepwise
a. É uma mistura do método forward e backward
49
b. Permite decidir quando introduzir ou remover variáveis
c. É o método menos utilizado porque retira a tomada de decisão do
investigador
d. As variáveis são introduzidas à vez para ver qual tem a maior variância
explicada
COMANDOS SPSS para fazer stepwise: analyze → regression linear → colocar a variável
dependente e a independente → no metodo colocar stepwise → estatísticas → intervalos de
confiança → durbin Watson → diagnostico por caso → alteração r → descritivas, correlação
parciais e de parte → diagnósticos de colineariedade → continue → salvar → padronizado
para os valores preditos → nos resíduos: padronizado e estudentizados (são uma
transformação usando o t student) → continue → ok
➢ Análise de pressupostos
o Homocedasticidade
✓ Fenómeno da variância constante ou da
dispersão constante dos resíduos
✓ Idealmente, o padrão dos resíduos deve
ser aleatório, para não assumirmos que
uma parte do modelo é explicada pelo
padrão de resíduos.
o Normalidade
✓ A normalidade é testada usando o teste Kolmogorov Smirnov em relação à
variável ZRE_1 (=resíduo)
✓ Os desvios à normalidade são observados nos gráficos Q -Q e Detrended Q -
Q plot. → Estes gráficos permitem também visualizar as observações que se
desviam da normalidade
50
➔ Como reportar as análises de regressão
➢ Dizer que modelo usamos
➢ Qual o método de inclusão que usámos
➢ Qual o objetivo e quais são as dependentes e as preditoras
➢ Qual o modelo que mostrou melhor ajuste de valor de F, r2
➢ Conclusões
51
Textos de acordo com a análise de SPSS
Estatística descritiva: Medidas de tendência central e dispersão
Qui-quadrado
52
Há uma associação
significativa entre o sexo e o
grau de satisfação face às
perspetivas de carreira
futuras, – X2 (3) = 11.282,
p=.01. – Os participantes do
sexo masculino estão
maioritariamente muitos
satisfeitos (n=11) e satisfeitos
(n=18) – As participantes do
sexo feminino estão
maioritariamente satisfeitas
(n=38) e algo insatisfeitas
(n=33).
53
Coeficiente de correlação de Ponto-Bisserial
Não há uma associação entre rpb=.179, p=.065.
Este resultado indica que maior quantidade de
informação não está associada aos participantes
que antecipam dentro de um ano mudarem a
sua categoria profissional
ANOVA a um fator
Há diferenças
estatisticamente
significativas entre os
participantes do grupo de
controlo, do grupo do GPC, e do grupo se
inscreveu apenas na sessão informativa, no
que respeita a quantidade informação
disponível para tomarem uma decisão de
carreira, F(2,120)=1,516, p=000.
O teste post hoc de Scheffe indica que os
participantes do grupo de controlo têm mais
informação em comparação com os
participantes do grupo GPC (Diferença média=1.951, p=.000), bem como os participantes da
Sessão Informativa têm mais informação do que os participantes do grupo GPC (Diferença
média=1.476, p=.007).
54
ANOVA a dois fatores
Não há diferenças
estatisticamente
significativas no que
diz respeito ao stress
com a exploração,
quer considerando o
grupo (F(2,116=1.468,
p=.235), quer
considerando o sexo
(F(1,116)=.108,
p=.743, quer
considerando as
duas variáveis em
simultâneo
(F(2,116)=1.722,
p=.183.
55
56
T teste para uma amostra
Há diferenças entre o valor
médio das respostas obtidas
pelos participantes no Estatuto
de Emprego e o respetivo
ponto médio da escala, t(106)=
-2.788, p=.006. O valor médio
obtido pelos participantes no
Estatuto de Emprego é inferior
ao ponto médio da subescala.
57
Teste McNemar
Teste de Mann-Whitney
Há diferenças estatisticamente significativas entre homens e mulheres no que respeita o seu
grau de certeza acerca dos resultados da exploração, U=818.000, p=.019. Os homens
apresentam maior grau de certeza acerca dos seus resultados de exploração do que as
mulheres.
Teste de Wilcoxon
Há diferenças estatisticamente significativas no que respeita a quantidade de informação que
o grupo que frequentou o GPC tem antes e depois da intervenção, Z=-2.465, p=.014. No total
de 40 participantes, 10 consideram ter havido um aumento da quantidade de informação
disponível sobre a carreira após a frequência do programa de intervenção.
58
Teste de Kruskal-Wallis
Quanto mais testes inferenciais desenvolvidos,
maior a probabilidade de termos um erro de
tipo I.
A Correção de Bonferroni consiste em dividir o
valor da significância estatística (p=.05) pelo
número de testes (comparações) adicionais
que temos de executar na sequência de um teste de
diferenças estatisticamente significativas que
comparou 3 ou mais grupos
Assim, .05/3 = .017
Há diferenças estatisticamente significativas entre
os participantes dos 3 grupos ates da intervenção
no que respeita a quantidade de informação disponível para a tomada de decisão
X2(2)=16.411, p=.000
Os testes de Mann-Whitney com correção Bonferroni evidenciaram diferenças entre o grupo
GC e o grupo GPC, U=443.500, p=.000, e o grupo GPC e o Grupo SI U=529.000, p=.004. Não
foram encontradas diferenças estatisticamente significativas entre o GC e o grupo SI nesta
dimensão.
Teste de Friedman
Há diferenças estatisticamente significativas entre os
3 momentos de avaliação, na variável quantidade de
informação, para o grupo GPC X2(2) =19.255, p=.000
Os testes de Wilcoxon com correção Bonferroni
evidenciaram diferenças
entre o pré-teste e o ps-
teste, Z=2.537, p.011, bem
como, entre o pré-teste e
o follow-up Z=3.615,
p.000. Não foram
encontradas outras
diferenças
estatisticamente
significativas.
59
Exercício 16 – t test
60
t (23) = -0,458, p= 0,652, como p > que 0,05 então aceitamos H0, o que significa que não há
diferenças entre os nossos participantes e o QI dito normal. O nosso nível de QI =98, está perto
no normal. – o sentido da diferença pode ser visto no sinal ou na própria media.
Exercício 17
A
Min 3 max 15 logo ponto medio =9
t (122) =4,807, p=0,000 → como p < que 0,05 então rejeitamos H0 e aceitamos H1, ou seja,
existem diferenças entre os resultados dos meus participantes e o ponto medio, significando
que os meus participantes tem niveis mais elevados de satisfação, 9,95 e a media é 9.
61
Este teste permite dentro do próprio calcular o teste de levene – homogeneidade
Analyze – compare means – independet sampla t test – variável de teste e variável de
agrupamento que é a que tem os grupos, - define groups e poe os números que estão na base
de dados.
Começamos por ler a 1º tabela, diferenciando entre os grupos dizendo a media e o desvio
padrao
Olhamos então para a 2ª tabela:
lemos o teste de levene: f=z,p =sig → p< 0,05 entao aceita H0, o que significa que não há
diferenças na variância, ou seja os dois grupos são equivalentes e por isso posso continuar a
analise vamos então ler os resultados do t test na primeira linha, se não confirmar H0, ou seja,
se houver diferenças na homogeneidade (H1) entao lemos na segunda linha.
t (gl), valor debaixo do t, p=sig
Exerci 17
B
62
Levene aceitamos H0, não há diferenças posso compara-los, lemos o resultado na 1ª linha,
como p =0,007 entao aceitamos H1, dizendo que existem diferenças. O grupo que está mais
satisfeito com a informação que possui é o gupor SI, porque é o que tem maior média.
A primeira tabela da o resultado para os dois tempos – ler media e desvio padrao dos dois
tempos
Lemos a 2ª tabela que diz correlação: é importante olhar para esta tabela porque se são os
mesmos participantes a responder então deve haver uma correlação estatisticamente
significativa e analisar o valor da correlação, deve ser moderada ou muito próximas, não
convem serem fracas ou fortes. → se não houver relação estatisticamente significativa então
não analisamos.
Lemos depois a 3ª tabela
t (gl) = valor de t, p=sig
63
se confirmar H0 não há diferenças entre o pré e o pós ou seja a intervenção não fez nada em
relação ao stress com a decisão (neste caso)
exercico 17
c
17.
D
stress com a exploração item 44 a 47, numa escala Likert e 7 pontos
Min – 4 max -28 (4*7) → (20+4)/2 = 16
Analuse – compare mean – one sample t test – valor 16
64
t(121) =-10,112, P=0,000 – aceitamos Ho, há diferentas entre o valor 11,89 e o valor 16, ou
seja os meus participantes têm menores niveis de stress
65
G
Solteiros – 2
Divorciados – 3 e passam a 2
Casados passam a ser 1 e viúvos tbm
Confirma Ho
I
Select cases com group=0
Variável 1 estatuto de emprego
66
Se os participantes foram os mesmos então a correlação deveria ser estatisticamente
significativa, por isso temos de analisar os dados com cuidado
Tirar o select cases
67
Houve um aumento em termos de exploração do pre e para o pos
ANOVA
Analise de variância permite compara 3 ou mais grupos ou 3 ou mais tempos
68
É um teste paramétrico – os 4 pressupostos aplicam-se, grupos independentes, aleatório,
normalidade e homogeneidade
Analyze – compare means – analise de variância unidirecional (one way ANOVA) – posteriori
(posthoc) – scheffe – continue – options – descritivas – testes de homogeneidade - continue
➔ O posteriori scheffe serve para ver entre os 3 grupos quasi são as relações (comparações e
diferenças)
➔ O facto de fazer a ANOVA diminui a probabilidade de erro (porque fazer a analise entre as
3 variáveis (x1, x2, x3) teria de ser feita 3 vezes para englobar todas as possíveis relações
ou seja 3 probabilidades de erro)
69
A 1ª tabela da-nos as medias e desvios apdroes para as 3 variáveis
A 2ª tabela da nos a homogeneidade f (g1,g2), valor de baixo de t, p=sig
Se confirma H0 confirma que há homogeneidade e podemos prosseguir
Na 3ª tabela vemos a anova
F(gl 1 linha, gl 2 a linha) = valor de baixo do F, p= sig
Na 4ª tabela vemos onde estão as múltiplas comparações
Analisamos a diferença media e o sig para cada – se p<0,05 entao há uma difença
estatisticamente significativa
➔ Não há diferença entre o grupo de controlo e o grupo SI
Exercício 18
A
GC M=16 (dp=8,139)
GI M=18,22 (dp=7,448)
Podemos prosseguir
So lemos os resultados da
primeira linha da primeira
70
Como aceitamos H0 entao não
continuamos a analisar
Exercício 19
71
Vamos comparar:
1 com 2 – não é estatisticament
1 com 3 – não é estatisticament
1 com 4 – sim – logo há uma diferença estatistivamente sing
2 com 3 – não é estatisticament
2 com 4– não é estatisticament
3 com 4 – sim – logo há uma diferença estatistivamente sing
Depois veem-se as medias
A do grupo 4 é a melhor intervenção porque é a que tem as pontuçoes mais altas
72
Aula
O teste de levene é um pressuposto que apenas serve para comparar grupos, com tempos não
faz sentido.
18
A
levene
F (2,120)=1,516, p =0,224 o que confirma H0, ou seja existe igualdade de variancias
ANOVA
F (2, 210) = 9,878, p =0,000 aceita H1
Queremos comparar
Gp com GPC → diferença media=1,951, p =0,000 aceita H1
Gc com Si → diferença media =0,476, p =0,584 aceita H0
GPC com SI → diferença media = -1,476, p=0,000 aceita H1
O único onde há diferenças é no GPC, verificamos na tabela 1 que é a das medias, e de facto
este é o que tem uma media mais díspar.
Estatística Descritiva
Variável dependente: StressExploração
Experimental ou Controlo Sexo Média Erro Desvio N
Grupo de controlo Masculino 12,38 5,920 16
Feminino 10,48 4,104 25
Total 11,22 4,912 41
Grupo GPC Masculino 10,25 5,137 12
Feminino 11,97 4,066 29
Total 11,46 4,411 41
73
Grupo sessão informativa Masculino 12,31 3,614 13
Feminino 13,33 4,206 27
Total 13,00 4,006 40
Total Masculino 11,73 5,025 41
Feminino 11,96 4,232 81
Total 11,89 4,495 122
Exercício 18
B
Parte descritiva
Teste de levene:
Base na media f (5,117) = 1,452, p = 0,211
Como p maior que 0,05 entao não há homogeneidade, aceitamos H0
74
ANOVA PARA MEDIDAS REPETIDAS, OU SEJA MAIS DE 1 TEMPO
Analyze – general linear model -medidas repetivas - apagamos o fator 1 e damos-lhe o nome
da nossa variável independente - meter o numero no quadradinho – incluir – definir –
contraste – tirar o polinomial e por o repetead – change – continue – medias em – por as
variáveis para o lado – comparar efeitos principais – carregar no ajustamento – bonferroni
(usa-se em tempos) - continue - save - distancia de cook – continue - options
- descritivas e potencia observada – OK
Tabela 3
Passamos a frente
Tabela 4
Teste mauchly - é um pressupsoto
W (2)= 0,959p=0,090 – confirma H0, há esfericidade E continuamos
Se for H1 não há esfericidade e lemos na tabela a linha de baixo
Ir para baixo ate encontrar a tabela que tenha o nome da nossa variável (2ª a contar de baixo)
E ler a pairwise
Comparação t1 e t 2 diferença media –2,644, p =0,000 há diferença
Comparação t1 e t3 diferença media =-1,508, p =0,06 – há difernença
Comparação t2 e t3 diferença media =1,136, p= 0, 124 – não há diferença
Ir ver a tabela das medias:
Do pos teste para o follow up eles estabilizaram o nível do stress, do pre para o pos teste o
nível de stress aumentou.
75
Exercício 18
C
Estatística Descritiva
Média Erro Desvio N
ExploraçãoSiPróprio 15,07 4,801 117
POSExploraçãoSiPróprio 16,95 4,451 117
FLUPExploraçãoSiPróprio 17,33 3,857 117
Exp 15,07(4,801)
Pos 16,95 (4,451)
Flup 17,33(3,857)
76
Limite inferior 3689,601 116,000 31,807
a. Calculado usando alfa = ,05
Exercico 18
D
Leneve
F (2,120) = 1, 669, p =0,193 como p maior que 0,05 entao aceitamos H0 o que significa que há
homogeneidade
ANOVA
F (2,120) = 6,417, p =0,002 – aceita H1
Comparações múltiplas
77
Cc com GPC 1,610, p =0,003 – aceita H1
Gc com Si 0,439, p =0,641 – aceita H0
GPC com SI -1,171, P =0,045
E
Tabela descritiva
Maucly
W (2) = 0,986, p =,777
Aceita H0
Lemos a tabela de baixo que aceita H0, ou seja não há diferenças e paramos de ler
F
Há diferenças em função do sexo
26.04.2021 – todos os testes de hoje são feitos em analyze – testes não paramétricos – legacy
dialogs
78
Teste McNemar – aplica-se cquando queremos ver se há diferenças em amostras
emparelhadas 2 tempos mas as variáveis dicotómicas – nominais dicotomicas
Analyze – non parametric test – legacy dialog – 2 amostras relacionadas – McNemar – colocar
a variável – options – analises descritivas – continue past
➔ A media na 1ª tabela não significa nada por isso vamos PensaMudarCategoria1anoT1 &
PensaMudarCategoria1anoT3
para a segunda tabela
Na 2ª tabela vemos as diferenças como se fosse um PensaMudarCategoria1anoT
crosstabs PensaMudarCategoria1 3
anoT1 Sim Nao
Sim 14 29
teste Mann-Whitney U
➔ Permite comparar duas amostras independentes, ou seja dois grupos entre si
Analyze – non parametric test – legacy dialog – 2 amostras independentes – colocar a variável
independente e a dependente – definir o valor das dependente – options – analises descritivas
– U mann witney -continue past
➔ 1º tabela descrição – so nos da media e desvio padrao
➔ 2 tabela organização dos resultados dos nossos dados, tipo ranking – qts pontos cada
grupo tem na dimensão analisada e vemos a diferença
Postos
Soma de
Posto Classificaçõe
Sexo N Médio s
CertezaResultadosExpl Masculino 41 75,87 3110,50
oração Feminino 82 55,07 4515,50
Total 123
79
➔ 3º tabela correlação Estatísticas de testea
U = valor do teste, p =sig CertezaResultad
osExploração
U = 1112,500, p =0,002 – aceita h1, exstem diferenças os
U de Mann-Whitney 1112,500
niveis de certexza dos resultados da exploração em função
Wilcoxon W 4515,500
do sexo → voltamos a tabela anterior e vemos a direção: Z -3,066
os homens tem mais certeza Significância Sig. (bilateral) ,002
a. Variável de Agrupamento: Sexo
teste Wilcoxon
➔ Permite comparar duas amostras emparelhadas
Analyze – non parametric test – legacy dialog – 2 amostras relacionadas – colocar a variável
independente e a dependente – options – analises descritivas – Wilcoxon -continue past
Estatística Descritiva
N Média Desvio Padrão Mínimo Máximo
QuantidadeInformação 41 9,34 2,220 4 13
POSQuantidadeInformação 41 10,15 1,918 6 13
Postos
Soma de
N Posto Médio Classificações
POSQuantidadeInformação - Classificações Negativas 10a 13,10 131,00
QuantidadeInformação Classificações Positivas 22b 18,05 397,00
Empates 9c
Total 41
a. POSQuantidadeInformação < QuantidadeInformação
b. POSQuantidadeInformação > QuantidadeInformação
c. POSQuantidadeInformação = QuantidadeInformação
➔ 3ª tabela
Z= valor z, p = sig
80
Z= -2,537, p =0,011 – rejeitamos H0, pois p<0,05, ou seja existem diferenças do pré para o
pos – vamos a primeira tabela e vemos que a media aumentou do pre teste para o pos
teste e vemos que no pre a media era
9 e no pos era 10, ou seja, houve um aumento da informação
Estatísticas de testea
POSQuantidade
Informação -
QuantidadeInfor
mação
Z -2,537b
Significância Sig. (bilateral) ,011
a. Teste de Classificações Assinadas por
Wilcoxon
b. Com base em postos negativos.
teste de Kruskal-Wallis
➔ Permite comparar duas amostras independentes, permite compara 3 ou mais grupos
entre si numa determinada variavel
Analyze – non parametric test – legacy dialog – K amostras independentes – colocar a variável
independente e a dependente – definir o valor da amplitude da variável dependente – options
– analises descritivas – H de Kruskal-Walli -continue past
➔ 1º tabela descrição – so nos da media e desvio padrao
➔ 2 tabela organização dos resultados dos nossos dados, tipo ranking – qts pontos cada
grupo tem na dimensão analisada e vemos a diferença
Postos
Experimental ou Controlo N Posto Médio
QuantidadeInformação Grupo de controlo 41 75,60
Grupo GPC 41 44,72
Grupo sessão informativa 41 65,68
Total 123
Quem diz ter mais inf é o de controlo, depois o SI e depois o GPC. Vamos então ver
se há diferenças significativas
➔ Tabela 3: Representa-se peli X2
X2 (gl) = valor de H, p = sig → o gl é o numero de grupos -1
X2 (2) = 16,411, p= 0,000 – aceita H1, ou seja há diferenças
81
Quando há diferenças temos de fazer outra analise para descobrir a diferença dos grupos dois
a dois mas há um pormenor mesmo importante: tem de ser um mann whitney para comparar
(0-1, 0-2, 1-2), por isso estamos a aumentar a probabilidade de erro tipo 1, por isso temos de
tentar corrigir, ou seja, em vez de resolver com p =0,05 usamos o valor de bomferroni, ou seja
pegamos no 0,05 e dividimos por 3 = 0,017, que passa a ser o nosso valor de corte
Entre o 0 e o 1 – há diferenças
Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo de controlo 41 51,18 2098,50
Grupo GPC 41 31,82 1304,50
Total 82
Estatísticas de testea
QuantidadeInfor
mação
U de Mann-Whitney 443,500
Wilcoxon W 1304,500
Z -3,725
Significância Sig. (bilateral) ,000
a. Variável de Agrupamento: Experimental ou
Controlo
Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo de controlo 41 45,41 1862,00
Grupo sessão informativa 41 37,59 1541,00
Total 82
Estatísticas de testea
QuantidadeInfor
mação
82
U de Mann-Whitney 680,000
Wilcoxon W 1541,000
Z -1,512
Significância Sig. (bilateral) ,130
a. Variável de Agrupamento: Experimental ou
Controlo
Entre o 1 e o 2 – há diferenças
Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo GPC 41 33,90 1390,00
Grupo sessão informativa 41 49,10 2013,00
Total 82
Estatísticas de testea
QuantidadeInfor
mação
U de Mann-Whitney 529,000
Wilcoxon W 1390,000
Z -2,920
Significância Sig. (bilateral) ,004
a. Variável de Agrupamento: Experimental ou
Controlo
83
3ª tabela
X2 (gl) = valor x2, p =sig
X2 (2) =6,181, p =0,045 – como é menor que 0,04 entao há diferenças – fazemos wilcoxon
Estatísticas de testea
N 120
Qui-quadrado 6,181
gl 2
Significância Sig. ,045
a. Teste Friedman
Wilcoxon
1ª tabela - Medias
2ª tabela -Diferenças
3ª tabela – relações das diferenças
do pre para o pos - não há difere
Do pre para o follow – não há
Pos teste e follow up – não há diferenças
O teste friedman diz que há diferenças ms oquando se compara cada um dos pares não há
diferença, isto acontece porque estamos a trabalhar com teste não paraanmetricos quee
estão mais suscetiveis a erros, logo os dados que temos não são conclusivos.
IMPORTANTE
POSTO MEDIO NÃO É MEDIA, SÃO RANKINGS
´
84
A analise de regressão
Regressões simples – so 1 vi
- so através do metdo experimental +e que podemos atribuir uma relação causal entre
variáveis
1 variavei – 30 observaçoes
Cada observação tem uma constante onde a reta passa o eixo vertical [é o alfa] e o valor da
sua inclinação (cada valor de x que aumenta aumenta o grau de inclinação da reta) [é o beta]
85
Alfa – peso que já há antes dos chocolates serem comidos
erro: a reta é um modelo calculado. O valor real é 3,75 – aumentou de peso so devido ao
chocolate ou tbm de outras formas? Isso é o erro: a diferença entre o valor real e o valor
calculado.
4. os resíduos ou seja o erro, a distancia entre a reta e o real deve ter uma distribuição normal
A regrassao e um modelo linear usado para fazer previsos de uma vd em relação a uma vd
A relação entre variavaies não podeassumir uma relação causal através de correlações
86
Qt menor for a regressão maior o grau de erro
Graphs – legaçy – scateer – simples – eixo y vendas – eixo x preço (queremos ver se o preço
prediz as vendas) – paste
- duplo clique no rato – abrir elementos – fine line total (linha de ajuste no total) – fechar -
paste
Ajustamento do modelo
Tudo o que estiver acima tem resíduos positivos e o que estiver abaixo tem resíduos negativos
R de Pearson pode ser utilizada para ver qual é a qualidade do modelo e o coeficiente de
determinação (r2) – é o valor da correlação de pearsona o quadrado que nos da uma
percentagem de variância explicada → qt mais próximo de 1 melhor a qualidade de
ajustamento do nosso modelo.
Estimar a reta
Analyze – regressão – regressão linear – vi(preditora) e vd – statistic – estimativas, intervalos
de confiança, modelo fit, descritivas
1ª tabela – descritivas
2q tabela – correlações
3ª model summary
- percentagem de variacia explicada – há não sei que % das vvendas que são influenciadas pelo
preço, mas ainda há 10% que não são explicados e isto é o erro
4ª ANOVA
5ª Coeficientes – o que eles contribuem individualmente para a variável dependente
A linha 1 diz-nos o valor de alfa (que é o valor de y quando x é 0) → este valor por vezes é
meramente teórico
A linha 2 diz-nos o declive da reta, ou seja por cada aumento de um valor de x este é o valor de
vendas que cresce ou decresce dos óculos de sol. – as vendas diminuem, + as vendas
aumentam.
87
A media quadrática é igual a soma quadrática da regressãi
F = media quadrática da regressão/resíduos
F elevados identificam uma melhor qualidade do nosso modelo
Intervalos de confiança – tbm permitem testar a validade – eles indicam os valores mais
prováveis na população e não apenas na nossa amostra.
O valor mais baixo é o valor de confiança limite baixo
E o valor de cima é o valor de confiança limite elevado
95% nos IC, são aqueles 0,05 que não escolheram o mesmo etc (5% não rejeitamos a hipótese
nula qd ela devia ser rejeitada) . vem do ponto de corte p=0,05
a) os 3 1os testes
analyse – descritives – explore – usar a variável nova criada em cima e por na linha dos
dependentes – plos – steam-and-leaf – nrmality plots with tests – ok
a.1 kolgomorov se são significativos a normalidade é rejeitada, ou seja o erro não representa
aproximação a normal
a.2 normal qq plo – a reta (que é o model) tem alguns desvios (pontos) apenas alguns se
sobrepõem a reta, outliers – observações que se afastam mto mais da tendência – se clicar-
88
mos duas vezes no gráfico e usarmos a mira quadrada e pudermos em cima do ponto
descobrimos qual é o numero de caso
a.3. detrended – o erro devia estar normalizado em torno da reta, algumas não estoa e
outroas estão, vemos outliars
Terte de durbin-watson – a variância entre duas variáveis não existe – ou seja a co variância
seja nula.
Valores mais próxima de 2 não ga autocorrelao entre os rasiduos
Valores próximo de 0, autocorrelaço positiva para um lado do gráfico
Valores próximos de 4, autocorrelaçao positica para o outro
89
Para excluir: data-select cases – if condition – if – por a variável - ~= numero → este sinal é a
exceçao ou seja, pedimos todos os casos menos aquele em especifico.
12.05
Calcular variáveis artificiais
Compute variabel
Colocar nome variável
Colocar valor que que queremos que assum e fazer o if igual aos valores a que queremos que
corresponda
OK
Colocar o valor que queremos para os missing values da mesma variável e no if por os valores
~= do nmr que pusemos antes
OK
90
Ex
R^2 explica x% da variância → serem expressivas (nesta área trabalhos no valores baixos de
variância)
91
1. método enter – todas as variáveis introduzidas ao mesmo tempo e ele diz-nos quais são
estatisticamente signficativas
Já sabendo qual explica a maior variância, podemos dizer quais são as que queremos que
entrem em primeiro lugar no modelo
→ r2 change
Trabalhamos com modelos diferentes
O modelo 1 – variável – explica x da variância
O modelo dois – 2 variáveis somadas – x da variância explicada
92
Na 2ª tabela – correlações – vemos qual e a variável que tem a correlação mais alta, ou seja, a
que explica maior variância
Correlações
notas refeiçao horas escola_a escola_c
Correlação de Pearson notas 1,000 ,588 ,819 ,762 -,822
refeiçao ,588 1,000 ,315 ,533 -,367
horas ,819 ,315 1,000 ,658 -,699
escola_a ,762 ,533 ,658 1,000 -,500
escola_c -,822 -,367 -,699 -,500 1,000
Sig. (1 extremidade) notas . ,000 ,000 ,000 ,000
refeiçao ,000 . ,018 ,000 ,007
horas ,000 ,018 . ,000 ,000
escola_a ,000 ,000 ,000 . ,000
escola_c ,000 ,007 ,000 ,000 .
N notas 45 45 45 45 45
refeiçao 45 45 45 45 45
horas 45 45 45 45 45
escola_a 45 45 45 45 45
escola_c 45 45 45 45 45
Nota: neste caso a que explica a maior variância é a 4, por isso é a que retemos
Resumo do modeloe
Modelo R R quadrado Estatísticas d
93
R quadrado Erro padrão da Mudança de R
ajustado estimativa quadrado Mudança F d
1 ,822a ,676 ,668 1,370 ,676 89,570
2 ,916b ,840 ,832 ,974 ,164 43,018
3 ,931c ,866 ,856 ,902 ,026 8,028
4 ,947d ,897 ,887 ,801 ,031 11,947
a. Preditores: (Constante), escola_c
b. Preditores: (Constante), escola_c, escola_a
c. Preditores: (Constante), escola_c, escola_a, horas
d. Preditores: (Constante), escola_c, escola_a, horas, refeiçao
e. Variável Dependente: notas
Na 5ª tabela – ANOVA
Mostra o ajuste do modelo aos dados com o F value para cada um dos 4 modelos
- se olharmos independentemente so para o F, podemos ver qual tem o f mais elevado, que é
o que tem maior ajuste entre todos e ver se é ou não estatisticamente significativo -- nem
sempre o modelo que tem o f mais elevado é o que explica mais variancia
ANOVAa
Soma dos Quadrado
Modelo Quadrados df Médio Z Sig.
1 Regressão 168,100 1 168,100 89,570 ,000b
Resíduo 80,700 43 1,877
Total 248,800 44
2 Regressão 208,933 2 104,467 110,057 ,000c
Resíduo 39,867 42 ,949
Total 248,800 44
3 Regressão 215,461 3 71,820 88,325 ,000d
Resíduo 33,339 41 ,813
Total 248,800 44
4 Regressão 223,129 4 55,782 86,918 ,000e
Resíduo 25,671 40 ,642
Total 248,800 44
a. Variável Dependente: notas
b. Preditores: (Constante), escola_c
c. Preditores: (Constante), escola_c, escola_a
d. Preditores: (Constante), escola_c, escola_a, horas
e. Preditores: (Constante), escola_c, escola_a, horas, refeiçao
Na 6ª tabela – coeficientes
Permite-nos ver o ranking da explicação da variância no modelo
94
Ver se as variáveis independentes não partilham variância entre si, ou seja se são
independentes, ve-se na tolerância (qt mais baixo pior é, abaixo de 0.1 é problematico) e
no Vif (valores até 4)
Coeficien
Coeficientes
Coeficientes não padronizados padronizados 95,0
Modelo B Erro Erro Beta t Sig. Lim
1 (Constante) 15,433 ,250 61,705 ,000
escola_c -4,100 ,433 -,822 -9,464 ,000
2 (Constante) 14,267 ,252 56,714 ,000
escola_c -2,933 ,356 -,588 -8,245 ,000
escola_a 2,333 ,356 ,468 6,559 ,000
3 (Constante) 13,054 ,487 26,789 ,000
escola_c -2,291 ,400 -,459 -5,732 ,000
escola_a 1,798 ,380 ,361 4,737 ,000
horas 1,070 ,378 ,261 2,833 ,007
4 (Constante) 11,895 ,548 21,722 ,000
escola_c -2,035 ,363 -,408 -5,609 ,000
escola_a 1,208 ,378 ,242 3,196 ,003
horas 1,262 ,340 ,308 3,711 ,001
refeiçao ,353 ,102 ,212 3,456 ,001
a. Variável Dependente: notas
Variáveis excluídasa
Estatísticas de colinearidade
Correlação Tolerância
Modelo Beta In t Sig. parcial Tolerância VIF mínima
1 refeiçao ,331b 4,170 ,000 ,541 ,866 1,155 ,866
horas ,478b 4,868 ,000 ,601 ,512 1,954 ,512
escola_a ,468b 6,559 ,000 ,711 ,750 1,333 ,750
2 refeiçao ,175c 2,523 ,016 ,367 ,702 1,424 ,608
horas ,261c 2,833 ,007 ,405 ,385 2,596 ,385
3 refeiçao ,212d 3,456 ,001 ,480 ,683 1,463 ,375
a. Variável Dependente: notas
b. Preditores no Modelo: (Constante), escola_c
c. Preditores no Modelo: (Constante), escola_c, escola_a
d. Preditores no Modelo: (Constante), escola_c, escola_a, horas
95
Analise dos pressupostos
Homocedasticidade
Graphs – legacy – scateer dot – dispersão simples – estândar predi no x e studentized resíduos
no y – OK
COMO REPORTAR:
Dizemos sempre qual o modelo que usamos
Qual o metodo de inclusão que ussamos
Qual o objetivo e quais são as dependentes e preditoras
Qual o modelo que mostrou melhor ajuste valor de F, r2
conclusoes
96
97