Você está na página 1de 98

MÉTODOS QUANTITATIVOS

Apontamentos

Margarida Fonseca Marques


Investigação científica

- Uma investigação é, por definição, algo que se procura. É um caminhas para um melhor
conhecimento e deve ser aceite como tal. Com todas as hesitações, desvios e incertezas que isso
implica.

- A ciência é o conhecimento, ou um sistema de conhecimento, que engloba verdades gerais ou a


operação de leis gerais, especialmente obtidas e testadas por meio do método científico. A ciência
só é considerada como tal quando se limita a determinar a natureza da realidade.

- Existem 4 métodos de aquisição de conhecimentos (que através da investigação científica,


ganham rigor e sistematização):

1. intuição

2. tradições e autoridade

3. experiência pessoas

4. raciocínio logico

- Os mitos são crenças populares ou narrativas associadas a pessoas, instituições ou


acontecimentos, porém consistem em histórias fictícias ou meias-verdade. Podem ainda ser
considerados relatos sobre a origem das coisas que surgem, de forma espontânea, como sendo
verdade, na busca pela compreensão da realidade. Os mitos advêm de:

1) Passa palavra
2) Desejo de respostas fáceis e soluções rápidas
3) Memória e perceção seletivas
4) Inferência de causalidade a partir de correlações
5) Falácias (silogismo vicioso)
6) Observação de amostras enviesadas
7) Raciocínio por representatividade
8) Filmes enganosos e representações de media
9) Exagero do núcleo de verdade
10) Confusão terminológica

metodologia científica

Etimologia: “meta” -> ao longo de…; “odos” -> via, caminho; “logia” -> ciência, discurso, estudo dos
caminhos, dos instrumentos para fazer ciência

- “Toda a investigação é uma tentativa de resolver um problema decorrente da solução de um


problema anterior. Se for bem-sucedida, descobre um ou mais novos problemas a serem
investigados por pesquisas. O problema resolvido é um elo na cadeia de problemas e suas
soluções, através das quais a ciência avança. De um modo geral, uma nova teoria é uma fonte
muito fecunda de problemas, através de predições que gera” (Kneller, in a Ciência como atividade
humana)

- O método científico é um conjunto de regras básicas para o desenvolvimento de uma experiência


coma finalidade de produzir novo conhecimento, bem como corrigir e integrar conhecimentos pré-
existentes. Na maioria das disciplinas científicas consiste em juntar evidências observáveis,
empíricas e mensuráveis e analisá-las com o usa da lógica. Este método está intrinsecamente
associado ao caracter histórico e provisório das conclusões.

1
- Existem 4 objetivos do conhecimento científico:

I. Exploração
II. Descrição: descrever a estrutura e o modo de funcionamento de um determinado
fenómeno, responde à pergunta “o quê?”
III. Explicação: “como?” e “porquê?”
IV. Predição: o que devemos esperar? Como irá funcionar?

- O conhecimento sistemático define-se como sendo um processo sistemático de colheita de dados


observáveis e verificáveis, a partir do mundo empírico, com vista a descrever, explicar, predizer ou
controlar determinados fenómenos, ou seja, é um processo sistemático feito com o objetivo de
validar novos conhecimentos já estabelecidos e de produzir outros novos que, de forma direta ou
indireta, vão influenciar a prática.

- Procedimentos intelectuais e técnicas adotadas para se atingir conhecimento:

a. Informações disponíveis
b. Indução: observar casos e situações especificas para desenvolver conclusões gerais,
ou seja, vai do particular para o geral; reunir informações, utilizar conhecimentos
para explicar uma situação
c. Hipóteses
d. Dedução: partir de generalização para casos particulares, o que pode acontecer se
a hipótese for verdadeira.

- Método hipotético dedutivo é uma tentativa de equilibrar o método indutivo e o método


dedutivo, sendo então aplicado do particular para o geral e vice-versa. Ocorre da seguinte forma

1) Existem expectativas ou conhecimentos prévios


2) Se existir um conflito entre as expetativas e as teorias existentes então origina-se
um problema
3) São criadas conjeturas, ou seja, proposições testáveis que levam a novas deduções
que, por sua vez, formam uma nova teoria.
4) Ocorre então o falseamento, ou seja, a refutação da teoria, através da observação
e experimentação.

2
- Características do método científico:

i. Objetivo
ii. Empírico
iii. Racional
iv. Replicável
v. Sistemático
vi. Metódico
vii. Comunicável
viii. Analítico
ix. Cumulativo

- Relação entre investigação, teoria e prática:

o Revisão de literatura e escolha da teoria e podemos concordar totalmente, acrescentar


alguma informação ou refutá-la e criar uma nova. A teoria sustenta a investigação e esta
traz um desenvolvimento para a teoria.
o A pratica pode ser a base a partir do qual se
desenvolvem as investigações, sendo que
estas têm depois implicações na prática
o A investigação (científica) pode recorrer a
diferentes métodos: m quantitativos e
qualitativos

- M. Quantitativos

Nível concetual:

▪ Tem o foco na análise de factos e fenómenos observáveis


▪ Mediação, comparação e relação de variáveis.
▪ Estudos descritivos, correlacionais e experimentais.

Nível metodológico:

▪ Foco no modelo hipotético-dedutivo. Hipotético porque parte sempre da análise de hipóteses


que queremos testar. Dedutivo porque implica irmos a grandes amostras estudar uma grande
quantidade de informação para depois analisarmos indivíduos em particular (passar do geral ao
particular). Isto faz-se através do uso de métodos científicos.
▪ O tamanho da amostra deve ser grande, contudo esta dependente da temática e do tipo de
participantes, devem ser selecionadas por amostra probabilística – para podermos generalizar
para o resto da população.
▪ Tendemos a aplicar testes válidos (normas dadas em psicometria, estandardização,
sensibilidade…) e usar medidas de observação objetiva.
▪ O investigador tem uma posição externa ao estudo, ou seja, quando está a recolher dados
envolve-se o menos possível na interação, mantendo assim a objetividade do estudo. (deve
ter-se cuidado com a informação dada aos participantes sobre qual é o objetivo, podendo
causar um enviesamento da resposta).
▪ O objetivo é desenvolver generalizações de resultados, predizer e controlar acontecimentos.

3
Nível da relação teoria-prática:

▪ Parte sempre da teoria, tentando testá-las, verificá-las e comprová-las, bem como das
hipóteses.
▪ O plano de investigação, a partir do momento em que se começa a recolher dados, deve ser
estático e estruturado, ou seja, os conceitos, as variáveis e as hipóteses não devem alterar-se
ao longo do decorrer da investigação.

Modelo linear de investigação – conjunto de


etapas muito estruturados, se for uma
investigação quantitativa estes são os passos que
temos sempre de seguir

▪ Hipóteses unilaterais e bilaterais – um deles


tem especificada qual é a diferença que espera (unilaterais), ou seja, para que lado se direciona
a desigualdade, qual o sentido para onde ocorre a diferença. Esta diferenciação (inclinação)
parte da teoria, se não existir apenas dizemos que esperamos encontrar diferenças entre A e B
(bilateral).
▪ NOTA: As palavras usadas nas hipóteses dão-nos pistas sobre quais os estudos estatísticos que
vão ser usados - Ex: correlação vs. diferenças
▪ Ao definirmos o construto, ou seja, ao fazer a operacionalização dos conceitos, temos de ver
qual a definição que usamos de forma a não excluirmos possíveis instrumentos, e deve ser
coerente com o instrumento que pretendemos utilizar. (a teoria das pistas sobre quais os
instrumentos a ser usados para a recolha de dados)
▪ Na seleção da Amostra deve definir-se de forma clara tanto os critérios de exclusão como os de
inclusão, bem como a forma como se vai alcançar cada participante. (se divulgarmos o
questionário online o método é não probabilístico por bola de neve – o questionário deve estar
disponível entre 1mes a 1mes meio)
▪ Analise de dados – ver hipóteses e instrumentos de forma a compreender quais as analises
estatísticas a realizar.
▪ Ver o que as conclusões implicam na relação entre o resultado que obtivemos e a teoria inicial
que se encontra na base da nossa investigação. (será que os resultados estão de acordo com a
teoria, será que a complementam ou contrariam-na?)
▪ Mediação de fenómenos – os fenómenos têm de ser diretamente observáveis e passiveis de
ser medidos através de instrumentos mais ou menos diretos. O instrumento que vamos utilizar
vai influenciar a nível positivo e negativo de forma a podermos fazer uma avaliação do
constructo adequada. Assim o instrumento deve ser apropriado e objetivo. Deve ter
sensibilidade de forma a podermos diferenciar, até a menor, quantidade de traço entre os
diferentes participantes. Deve ser válido – ou seja mede o que quer medir e de forma
adequada a população em estudo. Os instrumentos devem ter fidelidade – ou seja consistência
na forma como medem o construto.

- M. Qualitativos

Nível concetual:

▪ Não se estudam os comportamentos, mas sim objetos abstratos como as intenções e situações

4
▪ Estudos em profundidade, estamos interessados na opinião da própria pessoa e não das
massas, ou seja, investiga as ideias, descobre significados de ações individuais e de interações
sociais a partir da perspetiva dos atores intervenientes no processo (de recolha de dados)

Nível metodológico:

▪ Recorre ao método indutivo – parte da análise de cada caso em particular, partindo depois
para a generalização, analisa-se um a um até se detetar um padrão

Dúvida: Método indutivo: o significado tem um valor em função do contexto

▪ Mais importante do que o rigor é a relevância dos significados, o investigador não pode ter
uma posição externa, pois o investigador realiza uma entrevista criando uma maior ligação.
Não necessita de um guião fixo da entrevista, tendo por isso, alguma flexibilidade de forma a
analisar aquilo que a pessoa considera mais relevante. → Isto não significa que não haja rigor!
Devemos é ter uma atenção extra, pois até as expressões faciais podem mostrar algo que faz
com que os participantes se comportem e respondam de forma diferente à entrevista.
▪ Não se pretende generalizar, mas sim particularizar, estudando os dados a partir de situações
concretas.

Nível da relação teoria-prática:

▪ Ao contrário dos quantitativos, não é


necessário iniciar-se com uma teoria.
(alguns radicais dizem que não se deve ter
sequer conhecimento sobre o tema para
não causar enviesamentos).
▪ Não tem hipóteses de investigação, tem só
questões de investigação.
▪ É um processo circular – constrói-se uma
teoria, de modo indutivo e sistemático,
consoante os dados empíricos vão
emergindo.

Perspetiva quantitativa VS. Perspetiva qualitativa


1. teoria a testar 1 construção da teoria
2. problemas e hipóteses derivados da teoria 2. busca de padrões (formação de teorias)
3. conceitos e variáveis operacionalizados a 3. formar categorias de dados
partir da teoria 4. levantamento de questões
4. recolha de dados que confirmem a teoria 5. investigador recolhe os dados

5
Numa investigação é possível integrar
diferentes metodologias, ou seja, podemos
usar os dois tipos de métodos pois estes não
se contradizem, sendo o mais comum usá-los
de forma sequencial, embora também seja
possível usar em simultâneo (ex.: administrar
uma escala e no fim ter algumas questões
abertas).

É importante realçar que o investigador não


tem de assumir todos os atributos do
paradigma que selecionar para a sua investigação.

Princípio da triangulação: para


aumentar a riqueza dos dados,
devemos usar diferentes
métodos, diferentes
investigadores de forma a
obtermos diversas perspetivas de
interpretação de resultados,
diferentes instrumentos de
mediação do fenómeno,
diferentes fontes de informação
e diferentes métodos de estudar
o problema → para termos
dados muito diferentes e abrangentes de uma determinada situação, de forma a confirmar a
mesma informação através de diferentes pontos de vista, aumentando a qualidade das nossas
investigações.

Finalidade do desenvolvimento de uma investigação

*Estudos de investigação pura – pergunta:


como é que isto funciona, o que é isto (o que
é a memoria, como funciona a memoria)

*Investigação aplicada – experiência que tem


como objetivo perceber como algo funciona,
pretendemos provocar uma mudança,
arranjando novas formas de aplicar
(intervenção face ao bullying nas escolas) –
comparamos o grupo submetido ao programa
com outro que não foi de forma a
percebermos qual é o alcance da intervenção.

*Quantitativos – números que traduzem a


realidade e que são depois analisados

*Qualitativos – palavras que têm um


significado,

6
➢ Objetivo do estudo:

1. descritivas (objetivo e puramente descrever a realidade, sem que haja qualquer tipo
de alteração – se usarmos a par de um estudo quantitativo usam-se a estatística
descritiva, que permite caracterizar o fenómeno que pretendemos estudar),

2. explicativas (características mais correlacionais, onde tentamos procurar relações


entre as variáveis e como funcionam essas associações entre variáveis),

3. experimentais (exigem uma manipulação da realidade para ver se quando mudamos


as causas causamos alguma mudança, envolvem mais controlo, e devem exigir
idealmente aleatoriedade).

➢ Estudos em termos de alcance temporal:

a) transversais – recolher dados uma única vez no tempo


b) longitudinal – recolhe dados ao longo do tempo (embora permitam conhecer a
evolução em determinados temas, tem um problema que é a mortalidade da amostra
– desistência de participação no estudo, aumenta com o aumento do tempo do
estudo)

➢ Estudos em termos de número de participantes:

1. estudos de caso único – mais comuns são qualitativos, embora possam ser
qualitativos
2. grupos – grupo experimental, grupo de controlo

Planeamento de investigação empírica

Começa na revisão de literatura

A planificação de uma investigação é


inseparável das técnicas utilizadas no
tratamento dos resultados e daí decorrem
as conclusões retiradas

A hipótese operacional deve ter em conta


todas as variáveis e a forma como estão
operacionalizadas, tem de ter sustentação
na literatura e deve ser muito rigorosa
pois e nela que se encontra a informação que precisamos para desenvolver a investigação
quantitativa (tendo em conta que grande parta da investigação empírica que é desenvolvida é
planeada para gerar dados quantitativos.)

7
Existe uma relação bidirecional entre a hipótese operacional e os métodos de investigação
(amostra, instrumentos…) uns ajudam a formar e a definir os outros, estando em modulação
permanente, informam-se mutuamente.

Para testar hipóteses precisamos de estatística inferencial, mas todos começam com
estatística descritiva, primeiro descrevo a realidade e depois faço inferências sobre ela. Ao
aplicar as analises estatísticas em cima dos dados em bruto (informação bruta que recolhemos
diretamente dos participantes) estamos a retirar resultado. – Assim o conhecimento de
procedimentos estatísticos, torna-se extremamente importante e permite-nos analisar a
informação que recebemos, sendo o treino estatístico considerado um treino na utilização de
uma parte do método científico.

Ex: cada idade é um dado bruto, mas o que nos apresentamos é a media, podem ser
apresentados na forma de tabela, gráficos ou quadros.

Os resultados devem produzir determinadas conclusões que devem ser sempre analisadas a
luz da literatura, ou seja, do nosso ponto de partida. Posso ver que os meus resultados vão
contra, acrescentam ou concordam com aquilo que está na literatura e na teoria.

a) Competências necessárias à investigação empírica

“A racionalidade da investigação consiste, por conseguinte, na humildade de não saber, na


docilidade em aceitar a manifestação dos vestígios, na honestidade intelectual de enfrentar
essa manifestação sem a perverter, na constância e na diligência em prosseguir, de vestígio em
vestígio, mesmo quando não se vislumbra um sentido final do percurso… A investigação
requer, por conseguinte, uma grande maturidade interior do ser humano. Exige paciência,
constância, autoconfiança, humildade, capacidade para enfrentar a eventual incompreensão
dos outros. A somar a isto tudo, não é despiciendo um bom capital de esperança” (Rosa, 1994)

➔ Um bom pesquisador precisa, além do conhecimento do assunto, ter curiosidade,


criatividade, integridade intelectual e sensibilidade social. São igualmente importantes a
humildade para ter atitude autocorretiva, a imaginação disciplinada, a perseverança, a
paciência e a confiança na experiência.

b) análise de dados

é o conjunto dos métodos estatísticos que permitem visualizar, classificar, descrever e


interpretar os dados recolhidos junto dos participantes. Um dado é cada uma das
observações/informações obtidas numa investigação (e.g., através de medidas, respostas de
inquéritos, registos de idade, naturalidade), que se interpreta e a partir das quais se tiram
conclusões

c) estatística

→ Campo da matemática aplicada constituído por um conjunto de procedimentos científicos


que permitem recolher, organizar, sumariar, analisar, apresentar e interpretar dados
estatísticos
→ Estudo e aplicação de métodos para organizar, representar, resumir, analisar e tratar
dados numéricos (Urbina, 2007)

8
→ Ramo da matemática que se foca na organização, análise, e interpretação de um grupo de
números

d) tipos de estudos

Dentro dos métodos quantitativos podemos desenvolver 3 tipos de estudos

1. descritivos

- Implica descrever o que esta na realidade, explorando os conceitos, sem introduzirmos


qualquer tipo de mudança, não há manipulação, limita-se a descrever um fenómeno,
identificado as suas variáveis e os factos concretos.
– Observam-se, descrevem-se, classificam-se e interpretam-se características, experiências, e
fenómenos de uma pessoa ou população
- Recorre ao uso de estatística descritiva

2. correlacionais

- Procura estudar associações ou relações entre variáveis, apreciando as suas interações e


possibilitando a diferenciação entre grupos. Nunca modificando a realidade.
- Não há relações de causalidade, nunca sabemos qual é a causa e qual é o efeito (resultados
académicos vs. acreditar em si mesma)
- Há pelo menos 2 variáveis relacionadas entre si
- As correlações variam entre +1 e -1, próximas de 1 são perfeitas, 0 são a ausência da
correlação.
- 0.4 correlação fraca, até 0,70 moderada, até 1 forte
- Sinal positivo – variáveis variam no mesmo sentido, sinal negativo – variáveis variam em
sentidos opostos

3. experimentais

- Procurar relações causais em diferentes


condições experimentais, estabelecendo leis
que permitam predizer e controlar os
fenómenos
- Estudar relações de causa-efeito
- Há manipulação de uma variável (VI), esta
é a causa da outra onde se vê o efeito, ou
consequência (VD)
- Podemos ter mais do que um VD e VI,
quanto mais variáveis acrescentar mais
complexo e o estudo, maior é o número de grupo que temos de comparar.

e) tipos de desenho experimental

1. Desenho pré-experimental

- Não têm quase nada do que é importante para fazer estudos experimentais

9
- Não temos uma forma de ver se aquilo que
medimos se deve de facto a condição que
alteramos, ou seja, tem um reduzido controlo
experimental.
- Tem um grupo de participantes, que são avaliados no pós-teste
- Não há manipulação da VI

2. Desenho quase experimental

- Não controla variáveis externas que possam influenciar os resultados da manipulação da VI


na VD
- Não foi assegurada a aleatoriazação dos participantes – o que faz com que não possamos
dizer com 100% de certeza que as mudanças foram devidas a nossa intervenção. Os indivíduos
podem ter contacto uns com os outros causando um enviesamento dos resultados.
- Há 3 tipos de desenho quase experimental

2.1 Grupo de comparação não aleatório

✓ Inclui pelo menos 2 grupos de participantes, um experimental e um de controlo


✓ Não há distribuição aleatória dos grupos
✓ Só o grupo experimental recebe a intervenção
✓ Os grupos são avaliados no pré-teste e no pós-
teste – as diferenças entre pré e pós-teste
podem não se dever à manipulação da VI

2.2 Séries temporais de registo

✓ Inclui várias medidas da VD antes e depois de manipular a VI


✓ São feitos cerca de 50 registos
✓ As diferenças entre cada um dos registos
podem não ser causadas apenas pela
manipulação da VI – falta de controlo de
variáveis externas

2.3 Plano de correlação intervalar cruzada

✓ Inclui pelo menos 2 variáveis obtidas no mesmo


grupo de participantes
✓ Avaliação em 2 momentos distintos
✓ Possibilita a análise de relações bidirecionais
entre as variáveis

3. Desenhos verdadeiramente experimentais

- aleatoriazação dos participantes, o que permite que haja equivalência entre os mesmos
- As diferenças entre pré e pós-teste devem-se à manipulação da VI
- Riscos de contaminação entre testes – mesmo teste num período de tempo curto (recordar-
se do que responderam antes para mostrar que são consistentes ou tentam mostrar que

10
melhoraram preenchendo a escala nesse sentido). Para melhorar podemos usar o plano de
Solomon – usar 4 grupos, dois experimentais e 2 de controlo.
- Há 4 tipos de desenho experimental

3.1 Grupos aleatórios (com pré e pós-teste)

✓ Inclui pelo menos 2 grupos de participantes, um experimental e um de controlo


✓ Há distribuição aleatória dos grupos
✓ Só o grupo experimental recebe a intervenção
✓ Os grupos são avaliados no pré-teste e no pós-teste –
as diferenças entre pré e pós-teste devem-se à
manipulação da VI

3.2 Grupos aleatórios (só pós-teste)

✓ Inclui pelo menos 2 grupos de participantes, um experimental e um de controlo


✓ Há distribuição aleatória dos grupos
✓ Só o grupo experimental recebe a intervenção
✓ Os grupos são avaliados no pós-teste – as diferenças
no pós-teste devem-se à manipulação da VI
✓ O desenho só com pós-teste contém tantos grupos quantas as intervenções, e um
grupo de controlo. As medidas são tomadas após a aplicação da intervenção

3.3 Plano Solomon

✓ Inclui pelo menos 2 grupos experimentais e 2 de controlo


✓ Há distribuição aleatória dos grupos
✓ Só o grupo experimental recebe a intervenção
✓ Um dos grupos experimentais e um dos grupos de
controlo não tem avaliação de pré-teste
✓ As diferenças devem-se à manipulação da VI
✓ O desenho com quatro grupos de Solomon é uma
combinação dos desenhos pré e pós-teste e só pós-teste

3.4 Planos Fatoriais

✓ Inclui mais de uma VI


✓ Estabelecem todas as combinações possíveis dos
níveis de cada uma das variáveis independentes

f) População e amostra

Amostra: Conjunto de operações


que consiste em escolher grupos de
participantes ou qualquer outro elemento
representativo da população estudada

11
✓ Probabilística: técnica que permite a seleção aleatória (fruto do acaso) dos elementos de
uma população para formar uma amostra
✓ Não-probabilística: processo pelo qual todos os elementos da população não têm uma
probabilidade igual de serem escolhidos para fazerem parte da amostra

Para fazer o planeamento da amostragem de uma investigação empírica existe um conjunto de


passos a que temos de ter especial atenção:

Delimitar a população
Delimitar a população acessível
Especificar os critérios e seleção
Definir os planos de amostragem
Determinar o tamanho da amostra
Proceder à amostragem

g) conceitos importantes para alcançar a generalização.

Representatividade

– todas as características da
população-alvo têm igual
probabilidade de estar
representadas na amostra,
tanto as variáveis em estudo
como outras que possam ter
impacto no nosso estudo.

Significância

– O número de pessoas que fazem parte da


população-alvo que queremos estudar, deve ter
uma determinada equivalência a nível da nossa
população amostral, para além disso a amostra
deve ser grande o suficiente para garantir a
representatividade.

12
Erro de amostragem

- É a diferença entre os resultados obtidos na amostra e os que teriam sido obtidos se tivesse
sido feito o estudo com a totalidade da população. Quanto maior for este erro menor vai ser a
representatividade da amostra.

- Existem 2 tipos de erro:

→ Erro de representatividade
→ Erro aleatório

h) variáveis

identificação e definição das variáveis


E.g., O conceito “sexo”
- Qualidades, propriedades ou características de objetos, operacionaliza-se numa variável com
pessoas ou situações que são estudadas numa investigação e dois atributos/valores distintos:
que podem assumir diferente valores homem e mulher
Operacionalização das variáveis

- Definição clara dos conceitos em estudo em termos das operações ou técnicas usadas para os
medir

Valores da variáveis

- São as diferentes categoriais/níveis/grupos que a variável pode assumir

- Podem ser variáveis ativas ou variáveis atributo:

→ Ativas ou manipuladas – são as variáveis que têm pelo menos um nível, sendo
atribuídas a um conjunto de participantes durante um determinado espaço de tempo.
→ Atributo ou medida que – atribuem um valor a uma característica preexistente das
pessoas que constituem a população em estudo e que não sofrem alteração durante o
estuo (ex.: sexo, idade)

Definições das variáveis de acordo com a natureza:

- Qualitativas: definem atributos ou categorias


→ 2 tipos:
1)Dicotómicas (duas opções de resposta)
o Descontínuas
o Dicotomizadas
2) Politómicas (mais do que duas opções de resposta)

→ Regras para a construção destes 2 tipos de itens:


1. Homogeneidade
2. Inclusão – tudo aquilo que é possível inserir nestes itens deve estar lá representado, no
caso de haver dificuldade em encontrar todas as respostas possíveis deve ser colocada
uma linha onde diga “outra”.
3. Utilidade
4. Exclusão recíproca – não podem existir duas respostas que sejam incompatíveis (solteiro e
casado)

13
Quantitativas: definem características mensuráveis expressas em valores numéricos

➔ Discretas – números inteiros, separados uns dos outros e não sabemos quais são os
intervalos
➔ Contínuos – incluem todos os valores possíveis num intervalo incluindo as casas decimais

Níveis das variáveis/ de medida

- Nominais: o número é meramente identificativo, não significa nada. Implicam a definição de


categorias exaustivas e mutuamente exclusivas

- Ordinais: os dados estão ordenados por ordem de grandeza, seja de forma crescente ou
decrescente, não sendo possível calcular os intervalos (as diferenças) entre os valores.

NOTA: itens Likert individuais são variáveis ordinais, quando se agrupam numa subescala
são variáveis intervalares.

- Intervalares – escala numérico com origem arbitrário e que não tem um


zero natural (temperatura)

- Proporcionais/de razão – escala numérica com origem fixa, com zero


natural, todas as operações aritméticas fazem sentido

Os diferentes niveis
de medida são
definidos e usados de
acordo com os
procedimentos
estatísticos que se
vão aplicar, em testes
não paramétricos
utilizam-se apenas
variáveis nominais e
ordinais, enquanto
em testes
paramétricos se usam
variáveis intervalares
e de razão.

Definições das variáveis de acordo com o


estatuto:

- Independentes: são o elemento do estudo que é


sistematicamente manipulado, alterado e
selecionado; é aquele que faz com que a VD se
altere

- Dependentes: a ocorrência desta depende da VI,


é o efeito observado e que corresponde às mudanças sistemáticas feitas na VI.

14
NOTA: apenas os estudos que têm variáveis independentes ativas, como os estudos
experimentais e os quase experimentais, podem fornecer dados que permitam inferir que foi a
manipulação da VI que causou a alteração da VD.

Definições das variáveis de acordo com outras características:

- Variáveis moderadoras ou intermediárias: são usadas para estudar possíveis efeitos sobre a
interação entre a VI e a VD

- Variáveis estranhas, parasitas ou confundentes: são as características individuais,


demográficas ou do ambiente físico e social e que podem interferir com as VD e VI sem que o
investigador queira.

Controlo das variáveis:

Devem existir 2 tipos de validade:

a) validade interna: variáveis


estranhas/parasitas que podem influenciar a
VI comprometendo a correta interpretação
dos resultados.
b) validade externa: condições que podem
influenciar a representatividade dos procedimentos e resultados comprometendo a
generalização dos resultados.

Para ser feito um bom controlo das varáveis devem ter cumpridos os seguintes parâmetros:

1. controlar as variáveis parasitas/estranhas/confundentes


2. a amostragem deve ser probabilística
3. repartição aleatória
4. homogeneidade
5. emparelhamento
6. procedimentos estatísticos adequados

os participantes devem ser organizados em, pelo


menos 2 grupos, um de controlo e um
experimental.

i. o grupo de controlo é constituído pelos


participantes que não passam pela
intervenção ou condição experimental
ii. o grupo experimental é constituído pelo grupo que é alvo da intervenção ou condição
experimental

Avaliação pode ser feita de 2 formas

1. Intra-grupo (no SPSS aparece como paired sample) - o mesmo grupo de participantes é avaliado em
dois momentos permitindo fazer a comparação entre pré-teste e pós teste.

15
2. Inter-grupos (no SPSS aparece como independente sample) - Comparamos dois grupos
independentes no mesmo momento → pós-teste

Momentos de avaliação – são o que permite


verificar se, de facto, se regista alguma mudança
na VD após a VI ser manipulada.

Momento único – avaliamos um grupo em


diferentes variáveis, mas no mesmo momento
de avaliação

Dois momentos – avaliamos o mesmo grupo em


dois momentos distintos

Medidas repetidas –implica sempre pelo menos


3 momentos de avaliação – é um estudo
longitudinal

Pré-teste – momento de avaliação que ocorre antes da VI ser manipulada, ou seja, antes que o
investigador intervenha

Pós-teste – momento de avaliação após o investigador ter realizado a intervenção, ou seja,


após a manipulação da VI

Follow up ou estudo de seguimento – momento de avaliação que ocorre depois da


manipulação da VI, mas é mais longínquo, e pretende verificar a estabilidade/permanência dos
efeitos a longo tempo da manipulação da VI

3 tipos de estudo de acordo com o período de tempo:

Estudos transversais: utilizam-se vários grupos independentes e comparam-se os resultados


obtidos num momento definido.

Estudos longitudinais: utiliza-se um só grupo de participantes que é avaliado em vários


momentos

Estudos sequenciais: recorre-se a uma metodologia mista

O problema de investigação:

Começa sempre com um problema ou com um assunto de interesse para o investigador, é


enunciado por uma declaração abrangente que vai questionar a relação entre duas ou mais
variáveis de forma preciso e não equívoca, definindo de forma concreta as variáveis-chave, a
natureza da população alvo, o contexto e a orientação da investigação. Excluem as questões
que dizem respeito a julgamentos, aspetos éticos e morais, valores e assuntos do dia a dia –
devem dizer respeito a temáticas com importância científica. Dentro desta questão geral de
investigação existem várias questões de investigação.

16
O problema de investigação é analisar se (VI1) (e VI2, se existir), (e VI3, se existir) estão
relacionados com (VD1) (e VD2, se existir) em (população).

Níveis de estudo:

Nível 1 - Estudo exploratório descritivo

Não se introduz nenhuma mudança, descrevem-se ou sumariam-se os dados, como resposta a


questões sobre a tendência central, a frequência de distribuição, percentagem, variabilidade e
forma de distribuição da variável.
E.g.: Quais são as atitudes dos adolescentes face ao consumo de drogas?
E.g.: Qual é a experiência dos adolescentes do ensino secundário face à violência no namoro?
E.g.: A realização académica a matemática distribui-se de acordo com a curva normal?
E.g.: Qual é a percentagem de participantes de cada sexo?
E.g.: Qual é a média, a moda, e a mediana dos resultados a matemática?

Nível 2 - Estudo descritivo correlacional

Quando ambas as variáveis estão ordenadas e são contínuas, e se pretende associar duas ou
mais variáveis e ver a forma como variam uma em relação à outra.
E.g.: Existe uma associação estatisticamente significativa entre os resultados a português e os resultados a
matemática, em alunos do e. secundário?
E.g.: Existe alguma relação entre as habilitações académicas das mães e o número de livros que as crianças possuem
em casa aos cinco anos de idade?
E.g.: Que tipo de relação existe entre o NSE e a violência doméstica?

Nível 3 - Estudo quase experimental ou estudo verdadeiramente experimental

Quando se pretende analisar se existem diferenças estatisticamente significativas entre os


diferentes niveis da VI no que diz respeito à VD.
E.g.: Existem diferenças estatisticamente significativas entre o nível baixo, médio e elevado de educação académica
dos pais e os resultados médios dos filhos a matemática?
E.g.: Quais são os efeitos de dois regimes alimentares distintos em pessoas com diabetes?
E.g.: Existem diferenças entre ao nível da ansiedade face aos testes em alunos do ensino superior, antes e depois da
frequência de um programa de intervenção a este nível?

17
Hipóteses de investigação:

São previsões de resposta/explicação para um problema/fenómeno. Estas previsões são


baseadas na observação, na teoria e/ou nos trabalhos empíricos e combinam o problema e o
objetivo numa única predição clara dos resultados esperados. Podem ser uma afirmação

Regras de formulação:

1. enunciado – declarativo, escrito no presente, de causa ou associação; ausência de


juízos de valor.
2. sentido da relação – “mais que”, “maior que”, “diferente de”
3. verificabilidade – variáveis, relações e condições observáveis, mensuráveis, analisadas
estatisticamente
4. consistência teórica – consistência com a revisão da literatura efetuada
5. plausibilidade - pertinência em relação ao fenómeno estudado.

Processo de formulação: Podem ser por processos dedutivos ou indutivos

Nível de concretização: Podem ser concetuais, operativas e/ou estatísticas

Existem 2 tipos de hipóteses:


Hipótese Nula (H0) – expressa o conceito de igualdade, prediz que não existe uma
relação entre as variáveis, ou seja, que a VI não tem impacto na VD, ou que não há
uma diferença entre os grupos. → é a hipóteses estatística
Hipótese Alternativa (H1) – expressa o conceito de diferença, prediz que existe uma
relação entre a VI e a VD, ou que há uma diferença entre os grupos → é a hipótese de
investigação

Verificação de hipóteses de investigação:

1. Curva normal
A moda = média = mediana
A média da curva normal é o ponto abaixo do qual e acima
do qual se encontram 50% dos casos. A maioria dos casos
encontra-se perto da média e vai diminuído consoante se
dirigem para a periferia.

Desvios da curva normal – assimetria e curtose

Devemos calcular um z score para podermos interpretar a assimetria e a curtose


Como calcular a assimetria para ver se nos indicam uma curva normal ou uma assimetria. No SPSS
pedimos que calcule a assimetria, abaixo tem o erro padrão da assimetria, pegar na assimetria e dividir
por esse erro padrão. Isto é o z score – deve ser próximo de 0 ou então estar no intervalo entre -/+ 1.96
de forma a ser considerada simetria normal.

Como calcular a curtose para ver se nos indicam uma curva normal ou uma assimetria. No SPSS
pedimos que calcule a curtose, abaixo tem o erro padrão da curtose, pegar na assimetria e dividir por
esse erro padrão. Isto é o z score – deve ser próximo de 0 ou então estar no intervalo entre -/+ 1.96 de
forma a ser considerada simetria normal.

18
2. Teste de significância

→ é a probabilidade de Ho ser ou não


rejeitada com a menor probabilidade de erro

H0 é aceite se p>0,05, mostrando


que não há diferenças. Ou seja, se
H0 é verdadeira então as médias
obtidas para as 2 amostras/ 2
momentos… não devem ser
diferentes.

H1 é aceite se p<0,05, mostrando


que há diferenças. Ou seja, se H1 é verdadeira
então as médias entre as 2 amostras/2 momentos … vão ser diferentes.

Direção da diferença especificada


por H1:

1. teste unilateral ou com uma


extremidade – se H1 estabelecer
qual a direção esperada na relação
entre um parâmetro hipotético e a
sua estimação, ou seja, entre as
variáveis. Nestas o efeito esperado
apenas pode ter um único sentido
que já é conhecido à priori

2. teste bilateral ou com duas


extremidades – se H1 não prediz
qual a direção da relação entre as
variáveis, podendo o efeito ter os
dois sentidos possíveis, ou seja, a
hipótese não é direcionada.
NOTA: De forma estatística ao corrigir um erro diminuímos o outro, de forma não estatística podemos
diminuir o erro através do aumento do número da amostra.

Estatística descritiva vs. Estatística Inferencial

A) Estatística descritiva: Valor numérico ou observação que descreve um conjunto de dados


numéricos

i. Envolve: Recolher, organizar, e analisar dados


empíricos – Medidas de tendência central
(media, moda mediana) e Medidas de dispersão
(desvio-padrão, variância, intervalo interquartis)
ii. Finalidade: Descrever, interpretar, e apresentar
dados
iii. Exemplos: Freq; %, M, Mo, Me, Dp

19
B) Estatística inferencial: Valor numérico ou operação que permite a generalização de
resultados obtidos junto de uma amostra à população da qual provém

i. Envolve: Estimativas, teste de hipóteses – Medidas de associação (coeficientes de


correlação, analises de regressão) e Testes de diferenças (testes para comparação entre
grupos 2 ou +, testes para comparação entre tempos 2 ou +)
As medidas de associação e os testes de diferença podem
ser paramétricos ou não paramétricos. As medidas de
associação são usadas para associar variáveis entre si, ou
seja, uma com a outra. Os testes de diferenças permitem
comparar 2 ou + grupos ou 2 ou + tempos (os testes
usados para 2 e os testes usados para 3+ são diferentes.)

ii. Finalidade: Generalizar/extrapolar os resultados


obtidos na amostra, à população em geral é
iii. Exemplos: Coeficiente de Correlação de
Pearson; Teste t de Student para amostras
independentes; teste de Mann-Whitney

1) Estatísticas paramétricas: A sua utilização


requer uma amostra probabilística extraída de uma população normal, dados
métricos, variância conhecida ou que difere pouco entre os grupos
2) Estatísticas não paramétricas: A sua utilização não requer a estimação dos parâmetros
da população

Para usarmos testes


paramétrico temos de ter
sempre 3 destas análises,
a última
(homogeneidade) só se
aplica numa
circunstância especifica
que é a comparação de
grupos (permite
comparar a variância de 2 grupos e se não forem muito discrepantes asseguram que as
diferenças não são significativas), ou seja, as variáveis têm de ser sempre scale, a distribuição
tem de ser sempre próxima à normal e as observações devem ser independentes.

NOTA: A homogeneidade não se analisa em casos de associação só em casos de diferenças


entre grupos, ou seja, quando uma pessoa se está num grupo não está noutro, no mesmo
tempo.

Fazemos a análise exploratória dos dados (para os dois últimos pontos) para decidir se
fazemos uma análise paramétrica ou não paramétrica, ou seja, escolhe em função da análise
dos dados da análise exploratória – ela permite calcular a normalidade dos dados, permitindo
comparar os dados da nossa amostra com a curva normal, vai dar dados sobre a assimetria e a
curtose. Se seguirem podemos usar testes paramétricos.

20
Como escolher a técnica estatística adequada?

1. Considerar a hipótese geral

✓ Trata-se de uma análise de


diferenças entre amostras ou uma
análise de relação (associação)
entre variáveis?

2. Considerar a natureza das variáveis

✓ Quais e quantas VI’s e VD’s?

3. Considerar a escala de medida da(s) VD(s)

✓ Quais as escalas de medidas as variáveis?


✓ Técnicas paramétricas ou não-paramétricas?

4. Analisar os dados

✓ Abandonar a técnica estatística selecionada e escolher outra


✓ Transformar os dados para cumprirem os pressupostos

5. Analisar a hipótese operacional

✓ Hipótese bidirecional ou unidirecional?

Só falamos de hipóteses para estudos experimentais e correlacionais. E têm palavras-chave.

21
Introdução ao SPSS
Codificação, inserção, e confirmação dos dados

– Planear o estudo, estudo piloto e recolha de dados

1. Planear o estudo: identificar o problema e as questões e hipóteses de investigação;


planear o design de investigação
2. Selecionar/ desenvolver o(s) instrumento(s): verificar se já existe um instrumento válido e
fiável que possibilite a recolha dos dados pretendidos
3. Teste piloto: desenvolver um estudo prévio para estar a metodologia, junto de uma
pequena amostra semelhante à pretendida no estudo final
4. Recolha de dados: recolher os dados através do método selecionado: telefone, email,
pessoalmente, correio
5. Conferir os dados brutos recolhidos: antes de inserir no SPSS confirmar se os participantes
responderam a todas as questões, se atribuíram duas respostas à mesma questão, se
responderam entre dois pontos da escala
6. Numerar todos os questionários e iniciar o processo de codificação

– Realizar a codificação

1. Preparar uma folha de codificação: tomar decisões sobre como codificar os dados,
especialmente nos casos em que os dados não são numéricos
2. Confirmar os questionários preenchidos na íntegra: procurar dados incompletos, poucos
claros, e respostas duplas
3. Criar regras para lidar com os problemas identificados: para cada tipo de problema
(resposta incompleta, pouco clara, em branco, ou dupla) identificar a regra; e aplicar a regra de
forma consistente para todos os problemas semelhantes
4. Aplicar as regras aos questionários no momento da inserção de dados

– Codificar os dados para a sua inserção: processo de atribuir números aos valores/ níveis de
cada variável

1. Todos os dados devem ser numéricos: apesar de ser possível usar letras ou palavras, não é
desejável fazê-lo no SPSS. Converter tudo para números (e.g., 1 masculino, 2 feminino → dummy
variable)
2. Cada variável para cada participante deve ocupar a mesma coluna no Data Editor: cada
participante ocupa apenas uma linha, e cada coluna deve conter dados da mesma variável
para todos os participantes
3. Todos os valores para uma variável devem ser mutuamente exclusivos: um e apenas um
valor deve ser atribuído a cada variável; quando são permitidas mais respostas à mesma
variável, dividir em variáveis separadas
4. Cada variável deve ser codificada para obter o máximo de informação: não conjugar
categorias ou valores; se necessário fazer depois (e.g., idade)
5. Para cada participante, deve existir um valor para cada variável: deixar a célula em branco
apenas quando o participante não respondeu; caso contrário preencher com o valor adequado
6. Aplicar qualquer regra de codificação de forma consistente para todos os participantes:
codificar todas as respostas de todos os participantes de igual modo

22
7. Usar números elevados para dimensões positivas: 5 para “concordo fortemente”, ou
“muito satisfeito”, e 1 para “discordo fortemente” ou “muito insatisfeito”

Preparação dos dados

– Preparar os dados = codificá-los → atribuir um valor numérico aos dados recolhidos

– Questões fechadas de escolha múltipla

– Questões fechadas de opinião

– Questões abertas: usam-se se o nível de medida for métrico os valores recolhidos são reais,
e não é necessária a codificação das respostas

Missing values: escolher um valor de substituição de entre os números que não são utilizados
na codificação; para que este valor não seja utilizado nos cálculos deve ser definido nos valores
omissos

Análise de dados
Estatística descritiva:

1. Medidas de tendência central


➢ Média: somatório de todas as pontuações a dividir pelo número de casos
➢ Moda: pontuação/valor mais frequente na distribuição
➢ Mediana: ponto da escala de medida acima e abaixo do qual se localizam
metade das pontuações da distribuição; valor que ocupa a posição central

2. Medidas de dispersão
➢ Frequências: número de vezes que cada valor da variável aparece
➢ Intervalo interquartil: 50% centrais da distribuição -diferença entre o 1º e o 3º quartil
(quartil divide a distribuição em 4 partes iguais)
➢ Desvio-padrão: média dos desvios em relação à média; raiz quadrada da variância
➢ Variância: média dos quadrados dos desvios em relação à média

NOTA: Em psicologia usamos o desvio padrão e não a variância

3. Medidas de assimetria e curtose


➢ Coeficiente de assimetria: grau de enviesamento (desvio lateral) de uma distribuição; não
tem interpretação direta pelo que deve ser dividido pelo erro padrão associado

23
• Distribuição simétrica: z-score tende para o valor zero;
[-1.96;1.96]
• Distribuição enviesada à esquerda:
assimetria positiva; o z-score está acima
de 1.96
• Distribuição enviesada à direita:
assimetria negativa; o z-score está
abaixo de -1.96

➢ Coeficiente de curtose: grau de achatamento de uma distribuição; não tem interpretação


direta pelo que deve ser dividido pelo erro padrão associado
• Distribuição mesocúrtica: z-score tende para o valor
zero; [-1.96;1.96]
• Distribuição leptocúrtica: tendência pontiaguda; o z-
score está acima de 1.96
• Distribuição platicúrtica: tendência achatada; o z-score
está abaixo de - 1.96

PARA ESTAS 3 ANÁLISES OS COMANDOS DO SPSS SÃO:

Analyze→ Descriptive Statistics → Frequencies → Selecionar a variável pretendida na janela


esquerda e clicar na seta central para transportá-la para Variable(s) → Clicar no botão
Statistics e selecionar as estatísticas pretendidas (de acordo com as variáveis) • Central
tendency: Mean, Median, Mode; Percentil values: Quartiles; Dispersion: Std. Deviation, Variance,
Range, Minimum, Maximum; Distribution: Skewness, Kurtosis →Clicar em Continue e Paste

4. Tabelas de frequência
➢ Permite organizar os dados
recolhidos agrupando-os em
categorias
➢ Cada categoria está associada ao
respetivo número de ocorrências
➢ Possui frequências, percentagens, frequências acumuladas e % acumuladas, organizadas
em 4 colunas
➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Frequencies → Selecionar a
variável pretendida na janela esquerda e clicar na seta central para transportá-la para
Variable(s) → Clicar OK

5. Gráfico de caule e folhas + caixa de bigodes


➢ COMANDOS DO SPSS: Analyze → Descriptive
Statistics → Explore → Selecionar a variável
pretendida na janela esquerda e clicar na seta
central para transportá-la para Variable(s) →
Selecionar Diagrams → Steam and leaf → Clicar OK

24
6. Relacionar dados de duas variáveis
➢ COMANDOS DO SPSS: Analyze → Descriptive
Statistics → Crosstabs → Selecionar as variáveis
pretendidas na janela esquerda e clicar na seta
central para transportá-las para Row e Column
respetivamente→ Clicar em Cells e selecionar:
Counts – Observed; Percentages - Row, Column, ou
Total → Clicar OK

7. Gráficos

7.1 a) Gráficos de barras: eixo horizontal do X – VI; eixo vertical do Y – frequências


verificadas na VD; as barras devem ser separadas por espaços entre elas (indica que as
categorias da variável não são adjacentes umas às outras)

➢ COMANDOS DO SPSS: Graphs → Legacy


Dialogs → Bar → Na janela Bar Charts selecionar
Simple → Selecionar a variável o quadro da
esquerda colocá-la no quadro Category Axis →
Selecionar Title e atribuir um título ao gráfico →
Selecionar OK

7.1 b) Gráficos de barras com uma variável condicionada a outra

➢ COMANDOS DO SPSS: Graphs → Legacy Dialogs → Bar → Na janela Bar


Charts selecionar Groups; Summary for groups of cases → Selecionar a
variável o quadro da esquerda colocá-la no quadro Category Axis →
Selecionar a variável o quadro da esquerda colocá-la no quadro Define
groups by→ Selecionar Title e atribuir um título ao gráfico →
Selecionar OK

7.2 Gráficos circulares: cada fatia representa a VI; o tamanho de


cada fatia representa as frequências verificadas na VD

➢ COMANDOS DO SPSS: Graphs → Legacy Dialogs → Pie → Na janela Pie Charts selecionar
Summaries for groups of cases → Define → Selecionar a variável o quadro da
esquerda colocá-la no quadro Define slices by → Selecionar Title e atribuir
um título ao gráfico → Selecionar OK

25
7.3 Histograma: No eixo horizontal estão os valores da variável e
no eixo vertical a frequência de cada valor da variável; pode
analisar- se o enquadramento gráfico dos dados face à curva de
normalidade

➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics →


Frequencies → Selecionar a variável pretendida na janela esquerda e
clicar na seta central para transportá-la para Variable(s) →Clicar OK

7.4 a) Boxplots: representa a variação de dados observados de


uma variável numérica por meio de quartis; possui uma reta que se estende
verticalmente a partir da caixa, indicando a variabilidade dos dados. Os espaços entre
as diferentes partes da caixa indicam o grau de dispersão,
nos dados e os outliers

➢ COMANDOS DO SPSS: Graphs → Legacy Dialogs → Boxplot →


Na janela BloxPlot selecionar Simples → Summary for separate
variables → Selecionar a variável o quadro da esquerda colocá-
la no quadro Box representation → Selecionar OK

7.4 b) Boxplots duplas

➢ COMANDOS DO SPSS: Graphs → Legacy Dialogs →


Boxplot → Na janela BloxPlot selecionar Simples → Summary for
Groups of cases → Selecionar a variável o quadro da esquerda
colocá-la no quadro Box representation → Selecionar OK

Transformação de dados

1) Calcular uma variável a partir de outras já existentes

➢ COMANDOS DO SPSS: Transform → Compute variable →


Em Target Variable inserir o nome da nova variável → Em
Type&Label inserir a definição da nova variável → Em
Numeric Expression construir a expressão que vai gerar o
valor da nova variável

2) Recodificação de valores (modifica os valores de uma variável por recodificação)


➢ COMANDOS DO SPSS: Transform → Recode → Into different variables → Input variable →
Output variable → Selecionar as variáveis que se
pretendem recodificar → Introduzir o nome da nova
variável e clicar Change → Clicar no botão Old and new
values para especificar a recodificação → Em Old value
indicar o código atual da variável e em New value indicar
código que a nova variável vai assumir.

26
3) Substituição de valores em falta (missing values)

➢ COMANDOS DO SPSS: Transform → Replace missing values →


Selecionar o método de estimação pretendido: Média da série;
Média ou mediana de pontos próximos; Interpolação linear;
Regressão linear → Selecionar as variáveis para as quais se
pretende substituir os valores em falta

Seleção de dados

1) selecionar um subconjunto de casos


➢ COMANDOS DO SPSS: Data → Select cases → If → If condition is satisfied → Seleciona-se
a variável na janela da esquerda e clica-se na seta para que ela seja transferida para a
janela da direta → Seleciona-se o operador (e.g., =) seguido do valor → Clicar OK
➢ Depois de se ter realizado a analise estatística pretendida apenas com os casos
selecionados, não esquecer de voltar ao menu Data → Select Cases e selecionar → All
cases → Clicar OK

Estatística inferencial: permite testar hipóteses, ou seja, examinar se uma asserção relativa a
uma ou várias populações pode ou não ser confirmada

➢ Determinar se, numa população, a relação entre 2 ou + variáveis é diferente de 0


➢ Determinar se 2 ou + grupos diferem relativamente a uma característica
➢ Determinar se existem diferenças entre 2 ou + características relativas a um mesmo grupo
➢ Determinar se uma estatística calculada numa amostra difere do parâmetro populacional
que lhe corresponde

Testes paramétricos vs testes não-paramétricos

Não existe – Utiliza-se testes paramétricos quando as variáveis são métricas e testes não-paramétricos
consenso quando as variáveis são ordinais
acerca dos
procedimentos – Utiliza-se testes paramétricos quando as distribuições são normais e as variâncias
que é homogéneas, tanto com dados ordinais como com dados métricos
adequado
utilizar – Os testes paramétricos constituem os procedimentos básicos, a não ser que os dados sejam
tão poucos que os testes não paramétricos se revelem suficientes

Bryman e Cramer (1992) – Aplicar testes paramétricos em geral


Os testes paramétricos
são robustos mesmo
– Aplicar testes não-paramétricos quando as variâncias não são homogéneas e os
quando as amostras efetivos dos grupos são muito diferentes
violam as assunções de
base – Aplicar testes não paramétricos quando os efetivos dos grupos são pequenos
(N≤15)

27
Análise Exploratória de Dados – serve para
verificar se estão ou não cumpridos os
pressupostos subjacente à utilização de
testes paramétricos.
Antes de saber que correlação vou fazer a AED
para testar a normalidade, se foram normais (e
scale) fazemos Pearson, se não forem normais
timos de descer um nível e fazer Spearman.

NOTA: neste tipo de analise a assimetria e a curtose devem estar compreendidas entre
+1 e -1, sendo que quanto mais perto de 0 melhor. Devemos também analisar a caixa
de bigodes: a sua simetria; caixa central é delimitada inferiormente pelo percentil 25 e
superiormente pelo percentil 75; a linha mais carregada dentro da caixa é a mediana; a
linha inferior representa o valor mínimo e a linha superior representa o valor máximo
NOTA: Quando a pergunta é
“qual é a relação” não há VD
nem VI, colocam-se as
variáveis na dependent list.

1. Normalidade
➢ A normalidade permite verificar aquilo que teoricamente seria considerada uma amostra
normal – compara com uma distribuição teórica (que seria a normal)

➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Explore → Selecionar


no quadro da esquerda a variável de teste quantitativa e enviá-la para o quadro
da direita Dependent List → selecionar a opção Plots → Normality plots with test
→ Clicar OK
H0 diz que a hipótese é igual a uma amostra normal e H1 diz o contrário logo:

p > 0,05 → Aceitamos H0 o que significa que há normalidade (logo usa-se teste
paramétrico – Pearson)
p < 0,05 → Aceitamos H1 o que significa que não há normalidade (logo usamos testes
não paramétricos – Spearman)

28
a) Teste de Kolmogorov-Smirnov

➢ usa-se quando a amostra é igual ou superior a 35 participantes


Testes de Normalidade
Kolmogorov-Smirnova Shapiro-Wilk
KS (gl) = statistics, p =sig Estatística gl Sig. Estatística gl Sig.
QuantidadeInformação ,145 123 ,000 ,966 123 ,004
SatisfaçãoInformação ,106 123 ,002 ,972 123 ,012
a. Correlação de Significância de Lilliefors
b) Teste de Shapiro-Wilks

➢ usa-se quando a amostra é menor a 35 participantes

SW (gl) = statistics, p =sig

2. Homogeneidade
➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Explore → Selecionar
no quadro da esquerda a variável de teste quantitativa e enviá-la para o quadro
da direita Dependent List → selecionar a opção Plots → Spread vs Level with
Levene test → Untransformed → Clicar OK
Teste de Homogeneidade de Variância
Estatística de
H0 diz que a hipótese é homogénea e H1 Levene gl1 gl2 Sig.

diz o contrário logo: QuantidadeInformação Com base em média 1,341 1 121 ,249
Com base em mediana 1,760 1 121 ,187

p > 0,05 → Aceitamos H0 o que Com base em mediana e


com gl ajustado
1,760 1 119,245 ,187

significa que há homogeneidade de Com base em média 1,405 1 121 ,238


aparada
variâncias
p < 0,05 → Aceitamos H1 o que significa que não há homogeneidade de variâncias

a) Teste de Levene F (g1, g2) = Estatística de Levene, p = sig

Associação entre variáveis


Diagrama de dispersão (Scatterplot)
• Nuvem de dispersão: zona em que se situam os pontos
• Relação linear: quando os pontos parecem estar próximos de uma linha reta
o Relação positiva/direta - Se Y tende a aumentar quando X aumenta
o Relação negativa/inversa - Se Y tende a diminuir quando X aumenta

✓ caso A correlação negativa


✓ Caso B positiva
✓ C não existe correlação linear
✓ D existe uma correlação não linear

29
Qui-quadrado (teste de independência)
• Teste não-paramétrico utilizado para verificar a existência
de uma relação entre duas variáveis nominais (ou uma v.
nominal e uma v. ordinal)
• A comparação da distribuição de L grupos em C categorias
leva-nos a construir uma tabela de L x C células → tabela de
contingência
• H0: Não há associação → p > 0,05 𝑋 2 (gl) = statistic, p = sig
• H1: Há associação → p < 0,05
gl= Estatística de Levene, p = sig
• Valor próximo de 1 significa correlação perfeita

➢ COMANDOS DO SPSS: Analyze → Descriptive Statistics → Crosstabs →Selecionar as


variáveis pretendidas na janela esquerda e clicar na seta central para transportá-las para
Row e Column respetivamente → Clicar em Statistics → Chi-square→ Clicar OK

➢ Sempre que o valor de a for igual ou superior a 20% diz que os valores não são de
confiar, mas interpretamos na mesma.

➢ Depois de ler esta tabela lê-se a 2ª para entender a força e o sentido da correlação,
devendo mencionar o mínimo e o máximo.

Tabulação cruzada Sexo * Oqsentesobreperspectivasfuturasdecarreira1


Oqsentesobreperspectivasfuturasdecarreira1
Muito satisfeito Satisfeito Algo Insatisfeito Insatisfeito Total
Sexo Masculino Contagem 11 18 10 2 41
% do Total 8,9% 14,6% 8,1% 1,6% 33,3%
Feminino Contagem 5 38 33 6 82
% do Total 4,1% 30,9% 26,8% 4,9% 66,7%
Total Contagem 16 56 43 8 123
% do Total 13,0% 45,5% 35,0% 6,5% 100,0%

Coeficiente de correlação

• Valores oscilam entre -1 e +1 (correlação perfeita)

• 0 significa ausência de relação entre as variáveis

• Sinal +: os valores de uma variável mudam no mesmo sentido da outra variável

• Sinal –: os valores de uma variável mudam no sentido oposto da outra variável

• A correlação mede apenas o grau de associação entre variáveis (X Y) não constituindo nunca,
isoladamente, uma prova de relação de causa-efeito!

➢ COMANDOS DO SPSS: Analyze → Correlate → Bivariate →Em Correlation Coeficient


selecionar o coeficiente pretendido (Pearson ou Spearman) → Selecionar as variáveis a
correlacionar → Clicar OK

30
• Pontuação
Correlações >0.70 são altas
Correlações entre 0.40 e 0.50 são moderadas Correlação = statistics, p = sig
Correlações inferiores a 0.40 são baixas

• Analisar a direção da relação


Positiva: oscilações dos resultados nas 2 variáveis ocorrem no mesmo sentido
Negativa: oscilações dos resultados nas 2 variáveis ocorrem no sentido inverso

• Analisar o nível de significância estatística da correlação

❖ Há 3 tipos de correlação
1) Coeficiente de correlação de Spearman
✓ duas variáveis ordinais ou 1 variável ordinal com 1 variável intervalar
✓ não paramétrico

𝑟𝑠𝑝 = statistics, p = sig

2) Coeficiente de correlação de Pearson


✓ duas variáveis scale
✓ paramétrico

r = statistics, p = sig

3) Coeficiente de correlação Ponto Bisserial


✓ 1 variável nominal com 1 variável intervalar
✓ Atenção ao sinal se é + ou se é – porque vai indicar a direção da
relação, o segundo é sempre o sinal positivo

𝑟𝑝𝑏 = statistics, p = sig

31
Testes paramétricos e não paramétricos

32
Testes paramétricos
(aplicam-se os 4 pressupostos: são grupos independentes, aleatórios, com normalidade e homogeneidade)

1) Análise de variância (ANOVA) – Oneway ANOVA (ou a 1 fator)


2) Análise de variância (ANOVA) – a 2 fatores
3) Análise de variância (ANOVA) – com medidas repetidas
4) Teste t para uma amostra
5) Teste t para duas amostras independentes
6) Teste t para duas amostras emparelhadas

1. Análise de Variância (ANOVA) a um fator (ou oneway)


A ANOVA é utilizada para estabelecer as relações
➢ Usamos quando temos uma VD quantitativa e queremos entre mais do que duas variáveis em simultâneo
(3 ou mais), assim permite que sejam comparas
comparar a sua media em 3 ou mais grupos, desde que os dos vários grupos e/ou várias características, ou
seja, tem um grande número de variáveis sejam
grupos sejam independentes, as suas diferenças sejam
estas independentes ou dependentes, e que se
aleatórias, haja normalidade dos dados (kolgomorov) e a relacionam entre si de várias formas.

variância seja homogénea (levene)


➢ COMANDOS DO SPSS: Analyze → compare means → analise de variância unidirecional
(one way ANOVA) → posteriori (posthoc) → scheffe → continue → options →
descritivas → testes de homogeneidade → continue → paste
o O posteriori scheffe serve para ver entre os 3 grupos quais são as relações
(comparações e diferenças)
o O facto de fazer a ANOVA diminui a probabilidade de erro (porque para fazer a
analise entre, por exemplo, 3 variáveis (x1, x2, x3) teriam de ser feitas 3 análises
diferentes, de forma a englobar todas as possíveis relações, ou seja, haveria 3
probabilidades de erro)
➢ Análise dos resultados:
o Na 1ª tabela – lemos as médias e respetivos desvios-padrão para as 3 variaveis
o Na 2ª tabela – lemos a homogeneidade (lemos apenas os valores da 1ª linha)

F (gl1, gl2) = statistic, p=sig O teste de levene é um pressuposto que


apenas serve para comparar grupos, não
faz sentido ser utilizado com tempos.

✓ Se confirmar H0 (p > 0,05) então significa que há homogeneidade e


podemos prosseguir com a análise.
✓ Se confirmar H1 (p < 0,05) então significa que não há homogeneidade de
variância e paramos a análise por aqui
o Na 3ª tabela – lemos a ANOVA

F (gl1, gl2) = valor debaixo do F, p=sig

33
✓ P > 0,05 então aceitamos H0, ou seja, não existem diferenças
estatisticamente significativas entre os grupos, por isso não continuamos
a análise.
✓ P < 0,05, então rejeitamos H0 e aceitamos H1, o que significa que há uma
diferença estatisticamente significativa entre as variáveis, por isso
continuamos a análise.
o Na 4ª tabela – lemos as comparações múltiplas
✓ Analisamos a diferença média e o sig de cada variável
✓ Se p < 0,05 então há uma diferença estatisticamente significativa –
podemos (e devemos) voltar a primeira tabela para ver as médias e
comparar.
✓ Se p > 0,05 então não há uma diferença estatisticamente significativa
entre as variáveis. (a intervenção não serviu de nada)

2. Análise de Variância (ANOVA) a dois fatores


➢ Pode ser usada para duas variáveis independentes ao mesmo tempo, e quando
queremos ver o(s) seu(s) efeito(s) na VD, bem como entre elas (as varias VI)
➢ COMANDOS DO SPSS: Analyse → general linear model → univariate → por as variáveis
(1 na dependente e duas na que diz fixa) → posteriori → passamos a variável com mais
de 2 grupos para o lado e pedimos o scheffe –> options → descritivas, homogeneidade
→ observed power → OK
➢ Análise de resultados:
o Na 1ª tabela – vemos as estatísticas descritivas, media e desvios padrão das
variáveis
o Na 2ª tabela – lemos as estatística descritiva do cruzamento das variáveis
o Na 3ª tabela – lemos o teste de levene (homogeneidade) → lemos só a 1ª linha

F (gl1, gl2) = valor debaixo do F, p=sig

✓ P > 0,05 então aceitamos H0, ou seja, há homogeneidade, por isso


continuamos a análise.
✓ P < 0,05, então rejeitamos H0 e aceitamos H1, o que significa que não há
homogeneidade entre as variáveis, por isso não continuamos a análise.
o Na 4ª tabela – lemos as comparações entre os grupos
✓ Lemos a linha para cada uma das variáveis

F (gl1, gl2 [está na linha do erro]) = valor debaixo do F, p=sig

34
✓ Se p < 0,05 então há uma diferença estatisticamente significativa –
podemos continuar a analisar, na tabela 5
✓ Se p > 0,05 então não há uma diferença estatisticamente significativa
entre as variáveis.
o Na tabela 5 – teste de scheffe
✓ Vemos as relações entre as variáveis, analisando as diferenças e
semelhanças

3. Análise de Variância (ANOVA) para medidas repetidas


➢ Pode ser usada para dois ou mais tempos, no mesmo grupo de indivíduos
➢ COMANDOS DO SPSS: Analyse → general linear model → repeated measures →
apagamos o fator 1 e damos-lhe o nome da nossa variável independente → colocar o
número no quadradinho (numero de niveis da variável) → include → define → contrast
→ tirar o polinomial e por o repeated → change → continue → medias em → por as
variáveis para o lado → compare main effects → carregar no ajustamento → bonferroni
(usado para tempos) → continue → save → distancia de cook → continue → options →
descritivas e potencia observada → OK
➢ Análise de resultados:
o Na tabela 1 – temos as variáveis em analises
o Na tabela 2 - lemos estatisticas descritivas
o Na tabela 3 – passamos à frente
o Na tabela 4 – lemos o teste de Mauchly (analisa o pressuposto da esfericidade)
✓ W (gl) = valor debaixo de W, p = sig
✓ Se p < 0,005 então confirma H1, o que significa que não há esfericidade,
neste caso lemos a segunda linha (greenhouse-geisser) da tabela 5.
✓ Se p > 0,005 então confirma H0, o que significa que há esfericidade, neste
caso lemos a primeira linha (esfericidade assumida) da tabela 5.
o Na tabela 5 – para ver se há diferenças

F (gl1, gl2 [está na linha do erro]) = valor debaixo do F, p = sig

✓ Vemos as relações entre as variáveis, analisando as diferenças e


semelhanças
o Na tabela com o nome da nossa variavel (2ª a contar de baixo)
✓ Ler a pairwise – ver as diferenças médias para cada comparação e o p de
cada comparação, vendo quais são as estatisticamente significativas

35
✓ Se p < 0,05 então aceitamos H1 que afirma que há diferença
✓ Se p > 0,05 então aceitamos H0 que afirma que não há diferenças
✓ Depois voltamos à 1ª tabela, a que indica as médias para fazer a
comparação dos valores.
Variáveis em comparação: p = sig

4. Teste t para uma amostra


➢ Compara um grupo com um valor teórico, ou seja, compara a média de uma variável
quantitativa com a média de um valor teórico.
➢ COMANDOS SPSS: analyze → compare means → one sample t test → passar a variável
para a esquerda (para o test variable) → no teste value (valor de teste) colocar o valor de
média com que queremos comparar → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
✓ Comparamos com o valor de teste que utilizamos
o Na tabela 2 – lemos a qualidade da relação
✓ t (gl) = valor debaixo de t (que não se interpreta), p = sig
✓ p > 0,05 então aceitamos H0, ou seja, não há diferença média
✓ p < 0,05 entao aceitamos H1, ou seja, há diferença média
✓ na diferença média podemos ver quanto é a diferença da nossa média em
comparação com uma média normal

5. Teste t para duas amostras independentes


➢ Aplica-se quando se têm uma variável quantitativa e se quer comparar a sua média para
dois grupos independentes.
➢ A distribuição da amostra deve ser semelhante à normal, não podendo ter variância
excessivamente diferente, nem grupos de participantes com dimensões diferentes.
➢ COMANDOS SPSS: analyze → compare means → independente sample t test → inserir
variável de teste (passar da coluna da esquerda para a da direita) e a variável de agrupamento
(que é a variável qualitativa que define que grupos queremos comparar) → define groups (inserir os

valores que definem quais os grupos que queremos analisar) → OK

➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas discritivas, diferenciando entre grupos
o Na tabela 2 – lemos o teste de levene (homogeneidade)
✓ Levene → F = valor debaixo de F, p = sig

36
• Se p > 0,05 então aceitamos H0, o que significa que não há diferença
nas variâncias, ou seja, os dois grupos são equivalentes, logo posso
continuar a analise → lemos os resultados de t test na primeira linha
• Se p < 0,05 então rejeitamos H0 e aceitamos H1, ou seja, há
diferenças na homogeneidade e, por isso, lemos o valor de t test na
segunda linha.
✓ Resultados de t teste → t (gl), valor debaixo do t, p=sig

6. Teste t para duas amostras emparelhadas


➢ Utiliza-se quando se têm duas variáveis quantitativas correlacionadas e se quer comparar
as médias para o mesmo grupo, ou seja, é uma análise intra-grupo
➢ A distribuição tem de ser semelhante à normal
➢ COMANDOS SPSS: Analyze → compare means → paired-samples t test – por as variáveis
(tem de ser uma em frente da outra para poderem ser comparadas) → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas para cada um dos tempos
o Na tabela 2 – lemos a relação das variáveis e o t test
✓ Uma vez que são os mesmos participantes a responder deve haver uma
correlação estatisticamente significativa, devendo o valor da correlação ser
moderado ou muito proximo, não convem que sejam fracas ou fortes.
✓ Se p > 0,05 então aceitamos H0, então não há uma relação
estatisticamente significativa, logo não continuamos a analisar. O que
significa que a intervençao não alterou nada entre o pré e o pós
✓ Se p < 0,05 então aceitamos H1, então há uma relação estatisticamente
significativa e continuamos a analisar.
✓ Resultados de t teste → t (gl), valor debaixo do t, p=sig

Testes não paramétricos


1) Teste de McNemar → variáveis nominais dicotómicas
2) Teste de Mann-Whitney U → para duas amostras independentes
3) Teste de Wilcoxon → para duas amostras emparelhadas
4) Teste de Kruskal-Wallis H → para K amostras independentes
5) Teste de Friedman → para K amostras emparelhadas

37
1. Teste de McNemar
➢ Aplica-se quando se pretende analisar as diferenças em amostras emparelhadas em 2
tempos mas em variáveis nominais dicotómicas
➢ COMANDOS SPSS: analyze → non parametric test → legacy dialogs → 2 related sample
→ McNemar → colocar a variável → options → descritivas → OK
➢ Análise de resultados:
o Na tabela 1 – não é necessário analisar
o Na tabela 2 – lemos as diferenças como se fosse uma crosstab
o Na tabela 3 – lemos o valor do teste de McNemar
✓ McNemar → X2 = valor qui-quadrado, p =sig
✓ Se p > 0,05 então aceitamos H0, o que significa que não há diferença.
✓ Se p < 0,05 então aceitamos H1, o que significa que há diferenças.

2. Teste de Mann-Whitney
➢ Aplica-se quando se pretende testar a igualdade de dois grupos diferentes,
independentes
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → 2 independent
sample → Mann-Whitney → colocar a variável em estudo no quadro da direita (test
variable list) → grouping variable (definir os grupos) → options → statistic → descriptive
→ OK
➢ Análise de resultados:
o Na tabela 1 – dá-nos a estatistica descritiva dos grupos
o Na tabela 2 – lemos as diferenças, a organização dos dados, como se fosse um
ranking
o Na tabela 3 – lemos o valor do teste de Mann-Whitney
✓ Mann-Whitney → U = valor statistics U, p =sig

✓ Se p > 0,05 então aceitamos H0, o que significa que não há diferença.
✓ Se p < 0,05 então aceitamos H1, o que significa que há diferenças.
✓ Vamos à tabela 2 e vemos qual é a direção da relação.

3. Teste de Wilcoxon
➢ Aplica-se quando se pretende testar a igualdade de dois grupos emparelhados
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → 2 related samples
→ Wilcoxon → colocar a variável dependente e independente → options → statistic →
descriptive → OK

38
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – lemos as mudanças a nível descritivo, nas negativas são aqueles
que consideram que houve uma diminuiçao da variavel. Já nas positivas são
aqueles que consideram que a variavel aumentou.
o Na tabela 3 – lemos o valor do teste de Wilcoxon
✓ Wilcoxon → Z = valor de z, p =sig
✓ Se p < 0,05 aceitamos H1, ou seja, existem diferenças do pré teste para o
pós teste. Voltamos à primeira tabela e vemos a diferença da média entre
tempos.
✓ Se p > 0,05 aceitamos H0, ou seja, não existem diferenças entre o pré teste
e o pós teste. Não continuamos a analisar.

4. Teste de Kruskal-Wallis
➢ Aplica-se quando se pretende testar a igualdade de três ou mais grupos independentes,
numa determinada variavel
➢ COMANDOS SPSS: Analyze → Nonparametric test → legacy dialogs → K independente
samples → Kruskal-Wallis → colocar a variável em teste na coluna da direita (test
variable list) → colocar na grouping variable a variável qualitativa → define range (inserir
o intervalo dos grupos (o nmr do 1º que queremos analisar e o nmr do ultimo) → options
→ statistic → descriptive → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – lemos a organização dos resultados tipo ranking
o Na tabela 3 – lemos o valor do teste de Kruskal-Wallis → X2 (gl) = valor de H, p =sig

✓ Se p > 0,05 aceitamos H0, ou seja, não existem diferenças


✓ Se p < 0,05 aceitamos H1, ou seja, existem diferenças → temos de fazer
um teste Mann-Whitney para descobrir a diferença 2 a 2 (como estamos a
aumentar a probabilidade de ocorrer erro tipo 1, temos de tentar corrigir, o que

implica que em vez de usarmos p = 0,05 usemos p = [0,05/n de comparações] a

isto chama-se correlação de bonferroni).


o Após analisarmos o Mann-Whitney (COMANDOS SPSS: Analyze → Nonparametric test →
legacy dialogs → 2 independent sample → Mann-Whitney → colocar a variável em estudo no

quadro da direita (test variable list) → grouping variable (definir os grupos) → options → statistic

39
→ descriptive → OK) temos de voltar à tabela das médias do Kruskal-Wallis para ver
a diferença das médias entre os 3 grupos

5. Teste de Friedmann
➢ Aplica-se quando se pretende comparar três ou mais tempos para um grupo
➢ COMANDOS SPSS: analyze → nonparametric test → legacy dialogs → k related samples
→ teste Friedmann → colocar a variável em análise na coluna da direita (test variable
list) → options → statistics → descriptive → OK
➢ Análise de resultados:
o Na tabela 1 – lemos as estatisticas descritivas
o Na tabela 2 – passamos à frente
o Na tabela 3 – lemos o valor do teste de Friedmann→ X2 (gl) = valor de X2, p =sig

✓ Se p > 0,05 aceitamos H0, ou seja, não existem diferenças


✓ Se p < 0,05 aceitamos H1, ou seja, existem diferenças → temos de fazer
um teste de Wilcoxon para descobrir a diferença 2 a 2 (temos de fazer a
correlação de bonferroni).
o Após analisarmos o Wilcoxon (COMANDOS SPSS: Analyze → Nonparametric test → legacy
dialogs → 2 related samples → Wilcoxon → colocar a variável dependente e independente →

options → statistic → descriptive → OK) temos de voltar à tabela das médias do

Friedmann para ver a diferença das médias entre os 3 tempos

NOTA:

Pode acontecer o teste de Friedmann dizer que há


diferenças, mas quando se compara cada um dos pares
(com o Wilcoxon) não há diferença. Isto acontece porque
estamos a trabalhar com testes não-paramétricos que são
mais suscetiveis a erros, por isso, os dados que temos não
são conclusivos.

40
Regressões
A regressão é um modelo estático que permite prever qual será o comportamento de uma
variável quantitativa (Y), a partir de uma ou mais variáveis relevantes, que são por norma scale
(X), fornecendo informações importantes devido à margem de erro desse padrão.

NOTA: As variáveis independentes qualitativas podem também ser introduzidas no modelo sob
a forma de variáveis dicotómicas (com dois níveis apenas)

Regressão linear simples Regressão linear múltipla

existe apenas uma variável X (independente) existem duas ou mais variáveis X


(independentes)
analisa a relação entre as duas variáveis de
natureza quantitativa

➔ O modelo de regressão simples pressupõe: independência das observações, linearidade,


normalidade da variável dependente e dos resíduos
➔ a variável dependente, ou seja, Y, é considerada a função das variáveis independentes (X)
➔ só através do método experimental é que podem ser atribuídas relação causal entre as
variáveis, ou seja, nos modelos de regressão não pode NUNCA ser atribuída uma relação
causal.

➢ A correlação nos modelos de regressão


o mede o grau de associação entre duas variáveis é usada para prever Y
o Variação da correlação:
✓ quanto maior for a correlação entre as duas variáveis, melhor é a previsão
✓ Quanto menor for a correlação, maior é a margem de erro

➢ Quantas observações preciso de ter para uma análise de regressão?


o No caso de termos 1 variável são necessárias 30 observações
o No caso de haver mais de 2 variáveis devem ser feitas 15
observações por cada variável

Modelos de regressão linear simples


➢ Tendência é representada por uma linha reta
➢ Em raras exceções, todas as previsões de Y a partir de X são previsões em média
➢ Quando se pretende explicar Y em função de X, existem outros fatores que
influenciam igualmente a variável e não estão incluídos no modelo – estes factores
incluem-se na variável aleatória ℇi

41
Cada observação tem uma constante
onde a reta passa o eixo vertical do [é o
alfa] e o valor da sua inclinação (cada
valor de x que aumenta então aumenta
o grau de inclinação da reta) [é o beta]

➢ Erro → quanto menor for a regressão maior vai ser o grau de erro

Alfa - representa o peso que já havia antes de se


comerem os chocolates

Beta – representa o aumento de gramas por


cada chocolate, neste caso 0,21.

Uma vez que a reta é um modelo calculado está


extremamente suscetível a erros, neste caso,
podemos ver que o valor real é 3,75, sendo este
diferente do valor calculado, que se encontraria
perto do 2. → a diferença entre o valor real e o
valor calculado é o ERRO

Assim é necessário ter em conta se o aumento


do peso se deve só ao chocolate ou se poderá
ter outras origens.

➢ Pressupostos (utilizados quando trabalhamos com pontos de dados) dos quais


depende a validade da extrapolação

1) A relação entre Y e X deve ser linear (Ex: idade(x) e altura(y))


2) Y deve ter uma distribuição (aproximadamente) normal
3) As observações de Y devem ser independentes umas das outras
4) Os resíduos/erro devem ter uma distribuição normal
5) Os resíduos/erro referentes a duas observações diferentes devem ser
independentes e consequentemente não devem estar correlacionados

➢ Método dos mínimos quadrados:


o São métodos de estimativa do modelo de regressão linear simples e baseiam-
se nos resíduos observados, ou seja, no erro
o Calcula-se pela diferença entre os valores observados e os valores estimados

42
o Este método minimiza a soma do quadrado dos resíduos observados, ou seja,
diminui a distância vertical de cada observação à reta ajustada.
o Quanto menor o erro mais pequeno é o quadrado, melhor é o ajustamento da reta
aos nossos dados.
o A reta estimada através deste método é a que melhor se ajusta às observações, ou
seja, é a que melhor ajusta o modelo aos dados

Ajustamento do modelo para calcular a reta

➢ COMANDOS SPSS para calcular a reta de regressão linear: Graphs → legacy dialogs→
simple scatter → define → colocar as variáveis nos eixos (Axis)→ OK
o Depois do gráfico estar feito para colocar a linha normal - COMANDOS SPSS:
double-click no gráfico → elements → fit line at total

➢ Estimação e Previsão
o Ajustamento ao modelo para a estimação e previsao → usa-se a ANOVA para
ver se o modelo geral é estatisticamente significativo
✓ Por ter em conta o erro, o facto de ser aleatório não garante que o
valor previsto seja totalmente perfeito, ou seja, que se encontre
totalmente ajustado à reta, para que fosse perfeito não poderia haver
erro nenhum!! (a soma dos resíduos estimados teria de ser 0)
✓ As observações que se encontram acima da reta têm resíduos
positivos e as que se encontram abaixo têm resíduos negativos
✓ Por isso a qualidade das previsões é feita através do uso dos intervalos
de confiança.
✓ As medidas absolutas de qualidade do ajustamento vêm expressas
nas mesmas unidades das variáveis (erro padrão) e quanto menores
forem os seus valores, maior a precisão das previsões.
✓ As medidas relativas, não se exprimem em unidades, e representam o
grau de associação entre as variáveis (R) e o coeficiente de
determinação (R2) ou o coeficiente de determinação ajustado (R2 a).
✓ Quanto mais próximo o coeficiente de correlação (R) estiver de 1 ou -
1, ou quanto mais próximo o coeficiente de determinação (R2 ou R2 a)
estiver de 1, melhor é a qualidade de ajustamento do modelo em
termos amostrais
✓ R → coeficiente de correlação de Pearson
✓ R2 → coeficiente de determinação → traduz a quantidade da
variabilidade dos dados

o Previsão:
✓ Calcula-se uma estimativa para a variável

43
Ajustamento do modelo para estimar a reta
➢ COMANDOS SPSS: Analyze → regressão→ regressão linear → VI (preditora) e VD →
statistic → estimativas, intervalos de confiança, modelo fit, descritivas → OK
o Na 1ª tabela lemos as estatísticas descritivas
o Na 2ª tabela lemos os valores das correlações
o Na 3ª tabela lemos o model summary
✓ Neste encontra-se a percentagem de variância explicada – dá um valor X de
%, quando fica alguma percentagem por explicar é o erro e deve-se a fatores
não especificados.
o Na 4ª tabela lemos a ANOVA
✓ O teste F valida o modelo, sendo que valores de F elevados identificam uma
melhor qualidade do nosso modelo, são testes de inferências
✓ F = média quadrática da regressão a dividir pela média quadrática dos
resíduos
✓ Media quadrática da regressão = soma quadrática
da regressão faz-se o valor do Sum of Squares a
dividir pelos graus de liberdada e dá a média
quadrática da regressão (NA 1ª LINHA)
✓ Media quadrática residual = soma quadrática
residualfaz-se o valor do Sum of Squares a dividir
pelos graus de liberdada e dá a média quadrática
residual (NA 2ª LINHA)
o Na 5ª tabela lemos os coeficientes
✓ Permite ver o que cada fator contribui, individualmente, para a VD através
do Ajustamento do modelo: parâmetros individuais
• Tentamos compreender se cada parâmetro é estatisticamente
diferente da hipótese nula, ou seja, se são todos estatisticamente
significativos
• O teste t verifica se os parâmetros da constante (alfa) e da inclinação
da recta (beta) serem iguais a um determinado valor fixo
• O valor observado é o declive da reta
• O valor de t diz-nos se cada preditor é
ou não diferente

44
o A linha 1 dá-nos o valor de alfa (que é o valor de y quando x é 0) → este valor
por vezes é meramente teórico
o A linha 2 diz-nos o declive da reta, ou seja, por cada aumento de um valor de x
este é o valor de vendas que cresce ou decresce, cresce se for positivo, e
decresce se for negativo

➢ Validade do modelo: intervalos de confiança


o Indicam os valores mais prováveis na população (cerca de 95%) e não apenas
na amostra em estudo
o Os intervalos de confiança para a previsão indicam a margem de erro para
essa mesma previsão
o Avaliam a qualidade de previsão do modelo
o Os valores extremos representam o limite da confiança
o O valor de 95% nos intervalos de confiança corresponde ao nível de
significância de 0,05 usado na testagem de hipóteses (o sig)

➢ Pressupostos básicos da regressão


o Normalidade dos resíduos
✓ Testa se existe uma distribuição normal na amostra em estudo
✓ Para testar a normalidade podemos pedir uma nova analise de regressão e
podemos cirar uma nova varivavel estandardizada
• Criar uma nova variável estandardizada com os resíduos da regressão

COMANDOS SPSS: Analyse → regression → linear regression → por variáveis →


statisticas → residual →durbin-watson, casewise diagnostic, outliers outsider →
continue → save → residual → standardize → ok

✓ Pode ser analisado de diversas formas:


• Teste de Kolmogorov-Smirnoc com correção de Lilliefos → se são
significativos a normalidade é rejeitada, ou seja, o erro não representa
aproximação a normal

• Gráfico normal de Q-Q plot →permite ver se há outliers, porque


representa a distribuição de probabilidades dos valores observados e
esperados numa distribuição normal, por isso, se as duas distribuições
forem idênticas (ou seja, normais), os seus pontos devem sobrepôr -
se na diagonal do gráfico. O que não se sobreposer é outliar

• Gráfico Detrended Normal Q-Qplo → assume que há


distribuição normal quando as observações se distribuem
aleatoriamente à volta da linha horizontal, que representa o
zero.

45
COMANDOS SPSS para os 3 primeiros testes: Analyse → desceiptive statistcs →explore →usar
a nova variavel estandardizada com os resíduos da regressão, colocando-a na linha dos
dependentes → plots → steam-and-leaf →normality plots with test →OK

Ou no caso dos Q-Q plots

COMANDOS SPSS: Analyse → descriptive stataistis → explore → erro estarndardizado ZRE_1


→ plots → normalidade e histograma → OK (mostrar curva distribuicional nos elementos)

Dps ver a caixa de bigodes

• Histograma dos resíduo estandardizados → mostra se existem desvios


relativos à distribuição normal, através dos excessos e defeitos
apresentados em relação à curva. Permite ver se existe, ou não,
aproximação à normalidade para o erro.

COMANDOS SPSS: Analyse → descriptive statistcs →explore →usar a nova variavel


estandardizada com os resíduos da regressão, colocando-a na linha dos dependentes → plots
→ steam-and-leaf →normality plots with test →OK

➢ Homocedasticidade → fenómeno em que a variância, ou


seja, a dispersão do erro e constante em todos os pontos
→ idealmente o padrão de erro é aleatório, porque se
houver um padrão no erro então algo, que não estamos a
contemplar, explica as variáveis para alem delas próprias
o Heterocedasticidade → padrão em forma de
triângulo
o Não linear
o Hiderocedasticidade (Heterocedasticidade + não
linear)
➔ também se pode usar um scatterplot para analisar a dispersão do erro
COMANDOS SPSS: graphs → legacy dialogs → scatterplot (dispersão/ponto) → dispersão
simples → inserir variáveis (Residuos no Y, Preditores no X) → OK
➔ Z é sempre uma variável estandardizada

➢ Autocorrelação → vê-se na tabela do Model summary


o A covariância nula pode ser analisada com recurso ao gráfico anterior →
independência das variáveis aleatórias residuais
o Representa a ausência de padrões na configuração dos resíduos

46
o A análise da covariância nula, ou da não autocorrelação dos resíduos e
complementada pelo teste de Durbin-Watson
o No Durbin-Watson lê-se o valor:
▪ Valores mais próxima de 2 não há autocorrelação entre os resíduos
▪ Valores próximo de 1 ou 0, autocorrelação positiva para um lado do
gráfico
▪ Valores próximos de 3 ou 4, autocorrelação negativa para o outro
➢ Outliers
o Apenas devem ser excluídos se a observação não fizer parte da população em
estudo
o São observações distintas que estão associadas a resíduos com valores
elevados, sendo a sua identificação fácil → vemos através dos resíduos
estandardizados e aqueles que têm valores absolutos que são superiores a
1,96 são outliers!!!
o Devem ser identificados, porque se não corresponderem a erros na introdução
dos dados, podem permitir conhecer novas características e segmentos válidos
da população em estudo

COMANDOS SPSS: data → select cases → if condition → if → por a variavel ~= nº → OK

➔ Após retirarmos os outliers: NOTA:


- os erros padrões diminuem
~= → este sinal representa a
- R e R2 passam a ter maior valor explicativo exceção, ou seja, vamos pedir
todos os casos excepto aquele
- teste F tem valores mais elevados em especifico que indicamos

➔ Como reportar as análises de regressão


➢ Dizer que analise fizemos
➢ Qual o objetivo da análise
➢ Quais foram o(s) preditor(es) e qual
é a variável dependente
➢ O ajuste do modelo
➢ A contribuição individual do(s)
preditor(es) juntamente com o valor
de beta e o valor de p
➢ Fazer uma interpretação e conclusão

47
Modelos de regressão linear múltipla
➢ Tendência estatística, descritiva e inferencial que permite fazer uma análise de
relação entre as variáveis
➢ A análise desta relação é feita entre uma variável dependente e múltiplas variáveis
independentes
➢ As variáveis devem ser contínuas
o Podemos criar variáveis artificiais no caso de as variáveis independentes
não serem contínuas
o As variáveis artificiais são criadas a partir de variáveis nominais com três
ou mais categorias e são convertidas para variáveis nominais dicotómicas
o Criam-se K-1 variáveis artificiais (sendo K o total de categorias) → isto
permite que, no caso de existirem três ou mais níveis, haja
multicolinearidade
o COMANDOS SPSS: compute variable –> colocar nome →
colocar o valor que queremos assumir → fazer if igual aos
valores a que queremos que corresponda → OK
o COMANDOS SPSS missing values da variavel artificial: if →
~= do número que pusemos antes na variavel → OK
o A relação entre as variáveis e deve ser linear

➢ Expressão geral do modelo

o Se trabalharmos com modelos diferentes então o modelo 1 tem uma


variável que explica a % de variância explica; o modelo dois tem a variável
do 1 mais outra, que explicam a % de variância explicada

➢ Pressupostos básicos da regressão linear múltipla


o Normalidade
o Lineariedade
o Homocedasticidade
o Independência
o Multicolineariedade → traduz a existência de uma relação linear entre uma
variável dependente e as várias independentes
✓ Se as variáveis explicativas são linearmente independentes então não existe
multicolinearidade
✓ A intensidade da multicolinearidade é analisada através de:
• Correlação entre as variáveis independentes
• Tolerância e Variance Inflaction Factor (VIF) → o VIF é o inverso da tolerância
❖ Tolerancia → mede o grau em que uma variável X é explicada por
todas as outras variáveis independentes, sendo o X uma variável
independente e o 𝑅𝑖2 o coeficiente de determinação entre Xa e as
restantes variáveis

48
❖ Sendo Xa a proporção da variação que não é explicada pelas
variáveis independentes
❖ Tolerância varia entre 0 e 1 → para considerar que há
multicolinearidade a tolerância deve ser abaixo de 0,1
 Mais perto de 0 → maior multicolinearidade = menor
proporção de variação não explicada pelas outras VI´s
 Mais perto de 1 → menor a multicolinearidade
❖ VIF
 Mais perto de 0 → menor multicolinearidade
 para considerar que há multicolinearidade o VIF
deve ser acima de 10
➢ Exploração dos dados
o Permite testar a linearidade entre as variáveis
o Utilizam-se diagramas de dispersão para visualizar os valores observados entre
as notas e cada uma das variáveis independentes

➢ Estimação e Previsão
o Métodos de inclusão de variáveis → o principal objetivo é estimar os
parâmetros do modelo. Há 5 métodos de inclusão:
1. Enter
a. É o método mais simples.
b. Todas as variáveis se inserem num grupo (“block”)
c. Não há pressupostos relativamente à importância de cada variável
d. Podemos usar uma forma hierárquica de introdução de variáveis no
modelo (ex: variáveis entram de acordo com a importância teórica →
variáveis com a mesma importância inserem-se no mesmo bloco)
e. OU podemos inserir todas as variáveis ao mesmo tempo e ver quais são
estatisticamente significativas

2. Remove
a. Após a introdução das variáveis no modelo, permite que seja testado o
efeito da remoção de uma variável no ajustamento do modelo

3. Forward
a. A variável com a correlação mais elevada é colocada em primeiro lugar
b. As restantes variáveis vão sendo acrescentadas de acordo com a ordem
decrescente (da mais alto para a mais pequena) de variância.
c. A análise termina quando não há mais variáveis que expliquem a
variância extra no modelo.

4. Backward
a. O modelo começa com todas as variáveis e vão sendo retiradas aquelas
que têm correlações mais fracas
5. Stepwise
a. É uma mistura do método forward e backward

49
b. Permite decidir quando introduzir ou remover variáveis
c. É o método menos utilizado porque retira a tomada de decisão do
investigador
d. As variáveis são introduzidas à vez para ver qual tem a maior variância
explicada

COMANDOS SPSS para fazer stepwise: analyze → regression linear → colocar a variável
dependente e a independente → no metodo colocar stepwise → estatísticas → intervalos de
confiança → durbin Watson → diagnostico por caso → alteração r → descritivas, correlação
parciais e de parte → diagnósticos de colineariedade → continue → salvar → padronizado
para os valores preditos → nos resíduos: padronizado e estudentizados (são uma
transformação usando o t student) → continue → ok

➢ Análise de pressupostos
o Homocedasticidade
✓ Fenómeno da variância constante ou da
dispersão constante dos resíduos
✓ Idealmente, o padrão dos resíduos deve
ser aleatório, para não assumirmos que
uma parte do modelo é explicada pelo
padrão de resíduos.

o Autocorrelação – Model Summary


✓ Através do teste Durbin-Watson, já pedido
no modelo de regressão linear múltipla,
analisa-se se há independência entre as
variáveis aleatórias residuais. Ou seja,
verificamos se a sua co-variância é nula.
✓ Se estiver perto de 2 então não há
autocorrelação entre os resíduos

o Normalidade
✓ A normalidade é testada usando o teste Kolmogorov Smirnov em relação à
variável ZRE_1 (=resíduo)
✓ Os desvios à normalidade são observados nos gráficos Q -Q e Detrended Q -
Q plot. → Estes gráficos permitem também visualizar as observações que se
desviam da normalidade

50
➔ Como reportar as análises de regressão
➢ Dizer que modelo usamos
➢ Qual o método de inclusão que usámos
➢ Qual o objetivo e quais são as dependentes e as preditoras
➢ Qual o modelo que mostrou melhor ajuste de valor de F, r2
➢ Conclusões

51
Textos de acordo com a análise de SPSS
Estatística descritiva: Medidas de tendência central e dispersão

“Participaram neste estudo


um total de 107
participantes, 77 (72%)
mulheres e 30 (28%) homens,
com idades compreendidas
22 e os 49 anos (M=29.32;
DP=5.94; Mo=26 entre os).
Destes participantes 68
(63,6%) são solteiros, 35
(32.7%) são casados e 4
(3.7%) são divorciados.”

Estatística descritiva: Relacionar dados de duas variáveis

“A amostra é constituída por 107


participantes. Dos participantes do sexo
masculino, num total de 30, 17 (10.3%) são
solteiros, 11 (10.3%) são casados e 2 (1.9%)
são divorciados. Das participantes do sexo
feminino, num total de 77, 51 (47.7%) são
solteiras, 24 (22.4%) são casadas e 2 (1.9%)
são divorciadas.
No total da amostra, 68 dos participantes são
solteiros (63.6%; 51 mulheres e 17 homens), 35 são casados (32.7%; 24 mulheres e 11
homens) e 4 são divorciados (3.7%; 2 mulheres e 2 homens)”

Qui-quadrado

52
Há uma associação
significativa entre o sexo e o
grau de satisfação face às
perspetivas de carreira
futuras, – X2 (3) = 11.282,
p=.01. – Os participantes do
sexo masculino estão
maioritariamente muitos
satisfeitos (n=11) e satisfeitos
(n=18) – As participantes do
sexo feminino estão
maioritariamente satisfeitas
(n=38) e algo insatisfeitas
(n=33).

Coeficiente de correlação de Spearman


Há uma associação estatisticamente significativa entre os comportamentos de exploração
sistemática e intencional e o grau de satisfação face ao emprego atual, rsp= -.291, p=.002. Esta
relação é fraca e negativa, o que
indica que quanto mais satisfação
com as circunstâncias atuais de
emprego menos comportamentos
de exploração e vice-versa.

Coeficiente de correlação de Pearson


Há uma associação estatisticamente significativa entre os comportamentos de exploração
orientados para si próprio e os comportamentos
de exploração orientados para o meio,
r= .579, p=.000. Esta relação é positiva e
moderada, o que indica que quanto mais a
pessoa explora em si (interesses, valores,
competências) mais a pessoa tem tendência a
explorar também o meio (académico, formativo e profissional), e vice-versa.

53
Coeficiente de correlação de Ponto-Bisserial
Não há uma associação entre rpb=.179, p=.065.
Este resultado indica que maior quantidade de
informação não está associada aos participantes
que antecipam dentro de um ano mudarem a
sua categoria profissional

ANOVA a um fator
Há diferenças
estatisticamente
significativas entre os
participantes do grupo de
controlo, do grupo do GPC, e do grupo se
inscreveu apenas na sessão informativa, no
que respeita a quantidade informação
disponível para tomarem uma decisão de
carreira, F(2,120)=1,516, p=000.
O teste post hoc de Scheffe indica que os
participantes do grupo de controlo têm mais
informação em comparação com os
participantes do grupo GPC (Diferença média=1.951, p=.000), bem como os participantes da
Sessão Informativa têm mais informação do que os participantes do grupo GPC (Diferença
média=1.476, p=.007).

54
ANOVA a dois fatores
Não há diferenças
estatisticamente
significativas no que
diz respeito ao stress
com a exploração,
quer considerando o
grupo (F(2,116=1.468,
p=.235), quer
considerando o sexo
(F(1,116)=.108,
p=.743, quer
considerando as
duas variáveis em
simultâneo
(F(2,116)=1.722,
p=.183.

ANOVA com medidas repetidas


Há diferenças significativas ao nível da
variável Stress com a exploração em função
do momento temporal em que esta é
avaliada F(2,240)=17.086, p=.000; existem
também diferenças considerando o tempo
de avaliação e o grupo de intervenção
F(4,240)=4.110, p=.003.
Pairwise comparisons de Bonferroni
indicaram que considerando exclusivamente
o grupo os participantes não se diferenciam
entre si; mas, considerando a variável
tempo, existem diferenças entre o 1º e o 2º momentos de avaliação (Mean difference=-1.602,
p=.003) e o 1º e o 3º momentos de avaliação (Mean difference=-2-801, p=.000)

55
56
T teste para uma amostra
Há diferenças entre o valor
médio das respostas obtidas
pelos participantes no Estatuto
de Emprego e o respetivo
ponto médio da escala, t(106)=
-2.788, p=.006. O valor médio
obtido pelos participantes no
Estatuto de Emprego é inferior
ao ponto médio da subescala.

T teste para 2 amostras independentes


Não há diferenças
estatisticamente significativas
entre homens e mulheres no
que respeita o stress com a
tomada de decisão,
t(66.605)=-.082, p=.935.
Os homens e mulheres desta
amostra apresentam níveis
semelhantes de stress face à tomada de decisão t(66.605)=-.082, p=.935.

T teste para 2 amostras emparelhadas


Não há diferenças estatisticamente significativas no que respeita o stress com a tomada de
decisão do tempo 1 para o tempo 2 de avaliação, t(95)=-.902, p=.369.
O nível de stress com a tomada de decisão não se altera de forma estatisticamente
significativo do tempo 1 para o tempo 2 de avaliação, t(95)=-.902, p=.369.

57
Teste McNemar

Não há diferenças ao nível da antecipação em mudar de categoria


daqui a um ano do primeiro para o último momento de avaliação
(X2=.145, p=.703)

Teste de Mann-Whitney
Há diferenças estatisticamente significativas entre homens e mulheres no que respeita o seu
grau de certeza acerca dos resultados da exploração, U=818.000, p=.019. Os homens
apresentam maior grau de certeza acerca dos seus resultados de exploração do que as
mulheres.

Teste de Wilcoxon
Há diferenças estatisticamente significativas no que respeita a quantidade de informação que
o grupo que frequentou o GPC tem antes e depois da intervenção, Z=-2.465, p=.014. No total
de 40 participantes, 10 consideram ter havido um aumento da quantidade de informação
disponível sobre a carreira após a frequência do programa de intervenção.

58
Teste de Kruskal-Wallis
Quanto mais testes inferenciais desenvolvidos,
maior a probabilidade de termos um erro de
tipo I.
A Correção de Bonferroni consiste em dividir o
valor da significância estatística (p=.05) pelo
número de testes (comparações) adicionais
que temos de executar na sequência de um teste de
diferenças estatisticamente significativas que
comparou 3 ou mais grupos
Assim, .05/3 = .017
Há diferenças estatisticamente significativas entre
os participantes dos 3 grupos ates da intervenção
no que respeita a quantidade de informação disponível para a tomada de decisão
X2(2)=16.411, p=.000
Os testes de Mann-Whitney com correção Bonferroni evidenciaram diferenças entre o grupo
GC e o grupo GPC, U=443.500, p=.000, e o grupo GPC e o Grupo SI U=529.000, p=.004. Não
foram encontradas diferenças estatisticamente significativas entre o GC e o grupo SI nesta
dimensão.

Teste de Friedman
Há diferenças estatisticamente significativas entre os
3 momentos de avaliação, na variável quantidade de
informação, para o grupo GPC X2(2) =19.255, p=.000
Os testes de Wilcoxon com correção Bonferroni
evidenciaram diferenças
entre o pré-teste e o ps-
teste, Z=2.537, p.011, bem
como, entre o pré-teste e
o follow-up Z=3.615,
p.000. Não foram
encontradas outras
diferenças
estatisticamente
significativas.

59
Exercício 16 – t test

60
t (23) = -0,458, p= 0,652, como p > que 0,05 então aceitamos H0, o que significa que não há
diferenças entre os nossos participantes e o QI dito normal. O nosso nível de QI =98, está perto
no normal. – o sentido da diferença pode ser visto no sinal ou na própria media.

Exercício 17
A
Min 3 max 15 logo ponto medio =9

t (122) =4,807, p=0,000 → como p < que 0,05 então rejeitamos H0 e aceitamos H1, ou seja,
existem diferenças entre os resultados dos meus participantes e o ponto medio, significando
que os meus participantes tem niveis mais elevados de satisfação, 9,95 e a media é 9.

T teste para duas amostras independentes – compara entre 2 grupos

61
Este teste permite dentro do próprio calcular o teste de levene – homogeneidade
Analyze – compare means – independet sampla t test – variável de teste e variável de
agrupamento que é a que tem os grupos, - define groups e poe os números que estão na base
de dados.

Começamos por ler a 1º tabela, diferenciando entre os grupos dizendo a media e o desvio
padrao
Olhamos então para a 2ª tabela:
lemos o teste de levene: f=z,p =sig → p< 0,05 entao aceita H0, o que significa que não há
diferenças na variância, ou seja os dois grupos são equivalentes e por isso posso continuar a
analise vamos então ler os resultados do t test na primeira linha, se não confirmar H0, ou seja,
se houver diferenças na homogeneidade (H1) entao lemos na segunda linha.
t (gl), valor debaixo do t, p=sig

Lemos a 1ª tabela e diferenciamos de entre os sexos


Se olharmos para os dados da media do 1º quadro vemos, neste caso, que os homens têm
mais stress.
A conclusão é que não são diferentes, e portanto homens e mulheres não tem diferenças nos
seus niveis de stress com tomada de decisão

Exerci 17
B

62
Levene aceitamos H0, não há diferenças posso compara-los, lemos o resultado na 1ª linha,
como p =0,007 entao aceitamos H1, dizendo que existem diferenças. O grupo que está mais
satisfeito com a informação que possui é o gupor SI, porque é o que tem maior média.

Teste t para duas amostras emparelhadas – analises intra grupo


Analyze – compare means – paired sample t test – por as variáveis (tempo 2 é o POS), as
variáveis têm de ser colocadas uma em frente há outra para poderem ser comparadas

A primeira tabela da o resultado para os dois tempos – ler media e desvio padrao dos dois
tempos
Lemos a 2ª tabela que diz correlação: é importante olhar para esta tabela porque se são os
mesmos participantes a responder então deve haver uma correlação estatisticamente
significativa e analisar o valor da correlação, deve ser moderada ou muito próximas, não
convem serem fracas ou fortes. → se não houver relação estatisticamente significativa então
não analisamos.
Lemos depois a 3ª tabela
t (gl) = valor de t, p=sig

63
se confirmar H0 não há diferenças entre o pré e o pós ou seja a intervenção não fez nada em
relação ao stress com a decisão (neste caso)

exercico 17
c

É uma correlação quase moderada, estatisticamente significativa


Há diferenças, ou seja houve um aumento da variável exploração do meio.

17.
D
stress com a exploração item 44 a 47, numa escala Likert e 7 pontos
Min – 4 max -28 (4*7) → (20+4)/2 = 16
Analuse – compare mean – one sample t test – valor 16

64
t(121) =-10,112, P=0,000 – aceitamos Ho, há diferentas entre o valor 11,89 e o valor 16, ou
seja os meus participantes têm menores niveis de stress

F =0,012, p= 0,912 confirma Ho


T(121) =-0,506, P=0,506 confirma Ho, não existem diferenças estatisticamente significativas
entre quem pensa e quem não pensa.

De acordo com as medias da 1ª tabela, parece existir uma iminuição da exploração de si


próprio
2ª tabela, é uma correlação moderada estatisticamente significativa
T(39) =2,345, P=0,024 → rejeita H0 e aceitamos em alternativa H1, ou seja existem diferenças
estatisticamente significtativas entre o pos testes e os follow up, houve uma diminuição dos
comportamentos de exploração de si próprios.

65
G
Solteiros – 2
Divorciados – 3 e passam a 2
Casados passam a ser 1 e viúvos tbm

Confirma Ho

I
Select cases com group=0
Variável 1 estatuto de emprego

66
Se os participantes foram os mesmos então a correlação deveria ser estatisticamente
significativa, por isso temos de analisar os dados com cuidado
Tirar o select cases

67
Houve um aumento em termos de exploração do pre e para o pos

Em relação há segunda rejeitamos H0, aceitamos H1 existem diferenças estatisticamente


significativas, sentido : os participantes tiveram um aumento nos comportamentos de
autoconhecimento

ANOVA
Analise de variância permite compara 3 ou mais grupos ou 3 ou mais tempos

68
É um teste paramétrico – os 4 pressupostos aplicam-se, grupos independentes, aleatório,
normalidade e homogeneidade
Analyze – compare means – analise de variância unidirecional (one way ANOVA) – posteriori
(posthoc) – scheffe – continue – options – descritivas – testes de homogeneidade - continue
➔ O posteriori scheffe serve para ver entre os 3 grupos quasi são as relações (comparações e
diferenças)
➔ O facto de fazer a ANOVA diminui a probabilidade de erro (porque fazer a analise entre as
3 variáveis (x1, x2, x3) teria de ser feita 3 vezes para englobar todas as possíveis relações
ou seja 3 probabilidades de erro)

69
A 1ª tabela da-nos as medias e desvios apdroes para as 3 variáveis
A 2ª tabela da nos a homogeneidade f (g1,g2), valor de baixo de t, p=sig
Se confirma H0 confirma que há homogeneidade e podemos prosseguir
Na 3ª tabela vemos a anova
F(gl 1 linha, gl 2 a linha) = valor de baixo do F, p= sig
Na 4ª tabela vemos onde estão as múltiplas comparações
Analisamos a diferença media e o sig para cada – se p<0,05 entao há uma difença
estatisticamente significativa
➔ Não há diferença entre o grupo de controlo e o grupo SI

Exercício 18
A

GC M=16 (dp=8,139)

GPC M=18,83 (dp=7,460)

GI M=18,22 (dp=7,448)

F (2) = 0,607, p= 0,448

Podemos prosseguir

So lemos os resultados da
primeira linha da primeira

70
Como aceitamos H0 entao não
continuamos a analisar

Exercício 19

71
Vamos comparar:
1 com 2 – não é estatisticament
1 com 3 – não é estatisticament
1 com 4 – sim – logo há uma diferença estatistivamente sing
2 com 3 – não é estatisticament
2 com 4– não é estatisticament
3 com 4 – sim – logo há uma diferença estatistivamente sing
Depois veem-se as medias
A do grupo 4 é a melhor intervenção porque é a que tem as pontuçoes mais altas

72
Aula
O teste de levene é um pressuposto que apenas serve para comparar grupos, com tempos não
faz sentido.

18
A
levene
F (2,120)=1,516, p =0,224 o que confirma H0, ou seja existe igualdade de variancias
ANOVA
F (2, 210) = 9,878, p =0,000 aceita H1
Queremos comparar
Gp com GPC → diferença media=1,951, p =0,000 aceita H1
Gc com Si → diferença media =0,476, p =0,584 aceita H0
GPC com SI → diferença media = -1,476, p=0,000 aceita H1

O único onde há diferenças é no GPC, verificamos na tabela 1 que é a das medias, e de facto
este é o que tem uma media mais díspar.

ANOVA com duas variáveis independentes ao mesmo tempo


Analyse – general linear model – univariate – por as variáveis (1 na dependente e as outras
duas na que diz fixa) – posteriori – passamos a variável com mais de 2 gupos para o lado e
pedimos o sheffe – options – feescritivas, homogeneidade – observed power – OK
As primeiras tabelas são apenas descritivas
A segunda dá o cruzamento
ex

Estatística Descritiva
Variável dependente: StressExploração
Experimental ou Controlo Sexo Média Erro Desvio N
Grupo de controlo Masculino 12,38 5,920 16
Feminino 10,48 4,104 25
Total 11,22 4,912 41
Grupo GPC Masculino 10,25 5,137 12
Feminino 11,97 4,066 29
Total 11,46 4,411 41

73
Grupo sessão informativa Masculino 12,31 3,614 13
Feminino 13,33 4,206 27
Total 13,00 4,006 40
Total Masculino 11,73 5,025 41
Feminino 11,96 4,232 81
Total 11,89 4,495 122

A terceira tabele e o nosso pressuposto o levene


- lemos a primeira linha f(g1, g2) = statistic, p =sig
se confirmamos H0 não temos problemas de homogeneidade

na quarta tabela fazemos comparações entre os grupos


lemos a linha para cada uma das variáveis e reportamos os resultados de cada uma através da
seguinte expressão: f (g1, g2 – este esta na linha que fiz erro) = valor de f, p = sig

se existirem diferenças (o que se ve na tabela acima) vamos a tabela 5 e analisamos o teste de


sheffe.

Exercício 18
B
Parte descritiva

Teste de levene:
Base na media f (5,117) = 1,452, p = 0,211
Como p maior que 0,05 entao não há homogeneidade, aceitamos H0

Teste de efeitos entre sujeito


Grupo F (2, 117) = 1,143, p =0,322
Sexo F (1, 117) = 0,164, p =0,686
Grupo*sexo f (2,117) = 0,613, p =0,543

Não há diferenças por isso não continuamos a analise

74
ANOVA PARA MEDIDAS REPETIDAS, OU SEJA MAIS DE 1 TEMPO
Analyze – general linear model -medidas repetivas - apagamos o fator 1 e damos-lhe o nome
da nossa variável independente - meter o numero no quadradinho – incluir – definir –
contraste – tirar o polinomial e por o repetead – change – continue – medias em – por as
variáveis para o lado – comparar efeitos principais – carregar no ajustamento – bonferroni
(usa-se em tempos) - continue - save - distancia de cook – continue - options
- descritivas e potencia observada – OK

Stress exploração nos 3 momentos


Variável independente : tempo

1as tabelas são descritivas

Tabela 3
Passamos a frente

Tabela 4
Teste mauchly - é um pressupsoto
W (2)= 0,959p=0,090 – confirma H0, há esfericidade E continuamos
Se for H1 não há esfericidade e lemos na tabela a linha de baixo

Na tabela 5 lemos a primeira linha se confirmar H0 (esfericidade assumida), se confirmar H1 le-


se a segunda linha (greenhouse-geisser)
F (2, 234) = 13,943, p =0,000 – aceitamos H1 logo há diferenças

Ir para baixo ate encontrar a tabela que tenha o nome da nossa variável (2ª a contar de baixo)
E ler a pairwise
Comparação t1 e t 2 diferença media –2,644, p =0,000 há diferença
Comparação t1 e t3 diferença media =-1,508, p =0,06 – há difernença
Comparação t2 e t3 diferença media =1,136, p= 0, 124 – não há diferença
Ir ver a tabela das medias:
Do pos teste para o follow up eles estabilizaram o nível do stress, do pre para o pos teste o
nível de stress aumentou.

75
Exercício 18
C

Estatística Descritiva
Média Erro Desvio N
ExploraçãoSiPróprio 15,07 4,801 117
POSExploraçãoSiPróprio 16,95 4,451 117
FLUPExploraçãoSiPróprio 17,33 3,857 117

Exp 15,07(4,801)
Pos 16,95 (4,451)
Flup 17,33(3,857)

Teste de esfericidade de Mauchlya


Medida: MEASURE_1
Epsilonb
Aprox. Qui- Greenhouse-
Efeito dentre-sujeitos W de Mauchly quadrado gl Sig. Geisser Huynh-Feldt
tempo ,968 3,692 2 ,158 ,969 ,986
Testa a hipótese nula para a qual a matriz de covariâncias de erro das variáveis transformadas ortonormalizadas é proporciona
matriz identidade.
a. Design: Intercepto
Design Dentre-Sujeitos: tempo
b. Pode ser usado para ajustar os graus de liberdade dos testes de significância dentro da média. Os testes corrigidos são exib
Testes de efeitos dentre-sujeitos.

W (2) = 0,968, p = 0,158 – aceita H0, logo há esfericidade

Testes de efeitos dentre-sujeitos


Medida: MEASURE_1
Tipo III Soma dos
Origem Quadrados gl Quadrado Médio F Sig.
tempo Esfericidade considerada 343,732 2 171,866 10,807 ,
Greenhouse-Geisser 343,732 1,939 177,296 10,807 ,
Huynh-Feldt 343,732 1,971 174,380 10,807 ,
Limite inferior 343,732 1,000 343,732 10,807 ,
Erro(tempo) Esfericidade considerada 3689,601 232 15,903
Greenhouse-Geisser 3689,601 224,895 16,406
Huynh-Feldt 3689,601 228,655 16,136

76
Limite inferior 3689,601 116,000 31,807
a. Calculado usando alfa = ,05

F (2,232) 10,807, p=0,00 – confirmamos H1, ou seja há diferenças

Comparações por Método Pairwise


Medida: MEASURE_1
95% Intervalo de Confiança para
Diferença média Diferençab
(I) tempo (J) tempo (I-J) Erro Erro Sig.b Limite inferior Limite superior
1 2 -1,880* ,477 ,000 -3,040 -,721
3 -2,265* ,558 ,000 -3,620 -,910
2 1 1,880* ,477 ,000 ,721 3,040
3 -,385 ,526 1,000 -1,662 ,893
3 1 2,265* ,558 ,000 ,910 3,620
2 ,385 ,526 1,000 -,893 1,662
Baseado em médias marginais estimadas
*. A diferença média é significativa no nível ,05.
b. Ajustamento para diversas comparações: Bonferroni.

T1 – t2 → - 1,880, p =0,000 – há diferenças


T1-t3 → -2,265, p =0,000 – há diferenças
T2 – t3 → - 0,385, p = 1,000 – aceita H0, não há diferenças
Aumentaram de forma significativa do 1 para o 2 e do 1 para o 3 , mas do 2 para o 3 a
diferença não e estatisticamente significativa, os participantes do t2 para o t3 mantiveram os
comportamentos que adquiriram com a intervenção.

Exercico 18
D
Leneve
F (2,120) = 1, 669, p =0,193 como p maior que 0,05 entao aceitamos H0 o que significa que há
homogeneidade

ANOVA
F (2,120) = 6,417, p =0,002 – aceita H1

Comparações múltiplas

77
Cc com GPC 1,610, p =0,003 – aceita H1
Gc com Si 0,439, p =0,641 – aceita H0
GPC com SI -1,171, P =0,045

E
Tabela descritiva
Maucly
W (2) = 0,986, p =,777
Aceita H0
Lemos a tabela de baixo que aceita H0, ou seja não há diferenças e paramos de ler

F
Há diferenças em função do sexo

26.04.2021 – todos os testes de hoje são feitos em analyze – testes não paramétricos – legacy
dialogs

Testes paramétricos equivalência em Testes não paramétricos


Estes são usados em variáveis scale que não cumprem a normalidade ou variáveis ordinais
1. t teste para amostras independentes → teste Mann-Whitney
2. t teste para amostras emparelhadas → teste de Wilcoxon
3. oneway ANOVA → teste de Kruskal-Wallis
4. ANOVA para medidas repetidas → teste Friedman

78
Teste McNemar – aplica-se cquando queremos ver se há diferenças em amostras
emparelhadas 2 tempos mas as variáveis dicotómicas – nominais dicotomicas
Analyze – non parametric test – legacy dialog – 2 amostras relacionadas – McNemar – colocar
a variável – options – analises descritivas – continue past
➔ A media na 1ª tabela não significa nada por isso vamos PensaMudarCategoria1anoT1 &
PensaMudarCategoria1anoT3
para a segunda tabela
Na 2ª tabela vemos as diferenças como se fosse um PensaMudarCategoria1anoT

crosstabs PensaMudarCategoria1 3
anoT1 Sim Nao
Sim 14 29

➔ Na 3ª tabela – teste de mcnemar representa-se com o Nao 33 47

simbolo do X2 Estatísticas de testea


PensaMudarCat
X2 = valor qui-quadrado, p =sig
X2 = 0,145, p =0,703 – como p > 0,05 aceitamos H0 não há egoria1anoT1 &
diferenças PensaMudarCat
egoria1anoT3
N 123
Qui-quadradob ,145
Significância Sig. ,703
a. Teste de McNemar
b. Continuidade Corrigida

teste Mann-Whitney U
➔ Permite comparar duas amostras independentes, ou seja dois grupos entre si
Analyze – non parametric test – legacy dialog – 2 amostras independentes – colocar a variável
independente e a dependente – definir o valor das dependente – options – analises descritivas
– U mann witney -continue past
➔ 1º tabela descrição – so nos da media e desvio padrao
➔ 2 tabela organização dos resultados dos nossos dados, tipo ranking – qts pontos cada
grupo tem na dimensão analisada e vemos a diferença

Postos
Soma de
Posto Classificaçõe
Sexo N Médio s
CertezaResultadosExpl Masculino 41 75,87 3110,50
oração Feminino 82 55,07 4515,50
Total 123

79
➔ 3º tabela correlação Estatísticas de testea
U = valor do teste, p =sig CertezaResultad
osExploração
U = 1112,500, p =0,002 – aceita h1, exstem diferenças os
U de Mann-Whitney 1112,500
niveis de certexza dos resultados da exploração em função
Wilcoxon W 4515,500
do sexo → voltamos a tabela anterior e vemos a direção: Z -3,066
os homens tem mais certeza Significância Sig. (bilateral) ,002
a. Variável de Agrupamento: Sexo

teste Wilcoxon
➔ Permite comparar duas amostras emparelhadas
Analyze – non parametric test – legacy dialog – 2 amostras relacionadas – colocar a variável
independente e a dependente – options – analises descritivas – Wilcoxon -continue past

➔ 1 a tabela diz-nos as medias

Estatística Descritiva
N Média Desvio Padrão Mínimo Máximo
QuantidadeInformação 41 9,34 2,220 4 13
POSQuantidadeInformação 41 10,15 1,918 6 13

➔ 2ª tabela – da para ver as mudanças a nível discritivo

Postos
Soma de
N Posto Médio Classificações
POSQuantidadeInformação - Classificações Negativas 10a 13,10 131,00
QuantidadeInformação Classificações Positivas 22b 18,05 397,00
Empates 9c
Total 41
a. POSQuantidadeInformação < QuantidadeInformação
b. POSQuantidadeInformação > QuantidadeInformação
c. POSQuantidadeInformação = QuantidadeInformação

➔ 3ª tabela
Z= valor z, p = sig

80
Z= -2,537, p =0,011 – rejeitamos H0, pois p<0,05, ou seja existem diferenças do pré para o
pos – vamos a primeira tabela e vemos que a media aumentou do pre teste para o pos
teste e vemos que no pre a media era
9 e no pos era 10, ou seja, houve um aumento da informação

Estatísticas de testea
POSQuantidade
Informação -
QuantidadeInfor
mação
Z -2,537b
Significância Sig. (bilateral) ,011
a. Teste de Classificações Assinadas por
Wilcoxon
b. Com base em postos negativos.

teste de Kruskal-Wallis
➔ Permite comparar duas amostras independentes, permite compara 3 ou mais grupos
entre si numa determinada variavel
Analyze – non parametric test – legacy dialog – K amostras independentes – colocar a variável
independente e a dependente – definir o valor da amplitude da variável dependente – options
– analises descritivas – H de Kruskal-Walli -continue past
➔ 1º tabela descrição – so nos da media e desvio padrao
➔ 2 tabela organização dos resultados dos nossos dados, tipo ranking – qts pontos cada
grupo tem na dimensão analisada e vemos a diferença

Postos
Experimental ou Controlo N Posto Médio
QuantidadeInformação Grupo de controlo 41 75,60
Grupo GPC 41 44,72
Grupo sessão informativa 41 65,68
Total 123

Quem diz ter mais inf é o de controlo, depois o SI e depois o GPC. Vamos então ver
se há diferenças significativas
➔ Tabela 3: Representa-se peli X2
X2 (gl) = valor de H, p = sig → o gl é o numero de grupos -1
X2 (2) = 16,411, p= 0,000 – aceita H1, ou seja há diferenças

81
Quando há diferenças temos de fazer outra analise para descobrir a diferença dos grupos dois
a dois mas há um pormenor mesmo importante: tem de ser um mann whitney para comparar
(0-1, 0-2, 1-2), por isso estamos a aumentar a probabilidade de erro tipo 1, por isso temos de
tentar corrigir, ou seja, em vez de resolver com p =0,05 usamos o valor de bomferroni, ou seja
pegamos no 0,05 e dividimos por 3 = 0,017, que passa a ser o nosso valor de corte
Entre o 0 e o 1 – há diferenças

Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo de controlo 41 51,18 2098,50
Grupo GPC 41 31,82 1304,50
Total 82

Estatísticas de testea
QuantidadeInfor
mação
U de Mann-Whitney 443,500
Wilcoxon W 1304,500
Z -3,725
Significância Sig. (bilateral) ,000
a. Variável de Agrupamento: Experimental ou
Controlo

Entre o 0 e o 2 – não há diferenças

Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo de controlo 41 45,41 1862,00
Grupo sessão informativa 41 37,59 1541,00
Total 82

Estatísticas de testea
QuantidadeInfor
mação

82
U de Mann-Whitney 680,000
Wilcoxon W 1541,000
Z -1,512
Significância Sig. (bilateral) ,130
a. Variável de Agrupamento: Experimental ou
Controlo

Entre o 1 e o 2 – há diferenças

Postos
Soma de
Experimental ou Controlo N Posto Médio Classificações
QuantidadeInformação Grupo GPC 41 33,90 1390,00
Grupo sessão informativa 41 49,10 2013,00
Total 82

Estatísticas de testea
QuantidadeInfor
mação
U de Mann-Whitney 529,000
Wilcoxon W 1390,000
Z -2,920
Significância Sig. (bilateral) ,004
a. Variável de Agrupamento: Experimental ou
Controlo

Conclusão – voltar ao kruskal para ver as diferenças entre os 3 grupos


O grupo GPC é que é diferente dos outros dois
Há diferenças estatisticamente significativamente significativas …( ver gravação)

Friedman – 3 ou mais tempo e se p for estatisticamente significativo temos de fazer


wilcoxon
Analyze – non parametric test – legacy dialog – K related – colocar as 3 variaveis– statistic –
analises descritivas friedman -continue past
1º tabela descrição – so nos da media e desvio padrao

83
3ª tabela
X2 (gl) = valor x2, p =sig
X2 (2) =6,181, p =0,045 – como é menor que 0,04 entao há diferenças – fazemos wilcoxon

P passa a ser 0,017

Estatísticas de testea
N 120
Qui-quadrado 6,181
gl 2
Significância Sig. ,045
a. Teste Friedman

Wilcoxon
1ª tabela - Medias
2ª tabela -Diferenças
3ª tabela – relações das diferenças
do pre para o pos - não há difere
Do pre para o follow – não há
Pos teste e follow up – não há diferenças

O teste friedman diz que há diferenças ms oquando se compara cada um dos pares não há
diferença, isto acontece porque estamos a trabalhar com teste não paraanmetricos quee
estão mais suscetiveis a erros, logo os dados que temos não são conclusivos.

IMPORTANTE
POSTO MEDIO NÃO É MEDIA, SÃO RANKINGS
´

84
A analise de regressão

Regressões simples – so 1 vi

Regressão múltiplas – duas ou mais vi

- so através do metdo experimental +e que podemos atribuir uma relação causal entre
variáveis

Qts analises são precisas

1 variavei – 30 observaçoes

2 ou mais – 15 observaçoes por cada variável indep

Há outros fatores – erros – que influenciam a relação entre vi e vd

Cada observação tem uma constante onde a reta passa o eixo vertical [é o alfa] e o valor da
sua inclinação (cada valor de x que aumenta aumenta o grau de inclinação da reta) [é o beta]

85
Alfa – peso que já há antes dos chocolates serem comidos

por cada chocolate comido acrescenta 0,21 gramas

erro: a reta é um modelo calculado. O valor real é 3,75 – aumentou de peso so devido ao
chocolate ou tbm de outras formas? Isso é o erro: a diferença entre o valor real e o valor
calculado.

Pressupostos quando trabalhamos com pontos de dados – temos de ter validaçao

1. a relação entre vi e vd deve ser sempre linear (Ex: idade(x) e altura(y))

2. a vi (y) deve ter uma distribuição normal

3. as observações devem ser sempre independentes

4. os resíduos ou seja o erro, a distancia entre a reta e o real deve ter uma distribuição normal

5. o erro deve ser independente e completamente aleatório

Método dos mínimos quadrados – são literalmente desenhos de quadrados

E um método de estimativa que se baseia no erro. A diferença entre os valores observados e o


estimados. Qt mais pequeneos os quadrados observados, menor a distancia do erro a reta. Qt
menor o erro mais pequeno é o quadrado, melhor é o ajustamento da reta aos nossos dados.

A regrassao e um modelo linear usado para fazer previsos de uma vd em relação a uma vd

A relação entre variavaies não podeassumir uma relação causal através de correlações

86
Qt menor for a regressão maior o grau de erro

Graphs – legaçy – scateer – simples – eixo y vendas – eixo x preço (queremos ver se o preço
prediz as vendas) – paste

- duplo clique no rato – abrir elementos – fine line total (linha de ajuste no total) – fechar -
paste

→ podemos ver o outliar

Ajustamento do modelo
Tudo o que estiver acima tem resíduos positivos e o que estiver abaixo tem resíduos negativos
R de Pearson pode ser utilizada para ver qual é a qualidade do modelo e o coeficiente de
determinação (r2) – é o valor da correlação de pearsona o quadrado que nos da uma
percentagem de variância explicada → qt mais próximo de 1 melhor a qualidade de
ajustamento do nosso modelo.

Estimar a reta
Analyze – regressão – regressão linear – vi(preditora) e vd – statistic – estimativas, intervalos
de confiança, modelo fit, descritivas
1ª tabela – descritivas
2q tabela – correlações
3ª model summary
- percentagem de variacia explicada – há não sei que % das vvendas que são influenciadas pelo
preço, mas ainda há 10% que não são explicados e isto é o erro
4ª ANOVA
5ª Coeficientes – o que eles contribuem individualmente para a variável dependente
A linha 1 diz-nos o valor de alfa (que é o valor de y quando x é 0) → este valor por vezes é
meramente teórico
A linha 2 diz-nos o declive da reta, ou seja por cada aumento de um valor de x este é o valor de
vendas que cresce ou decresce dos óculos de sol. – as vendas diminuem, + as vendas
aumentam.

Para prever as vendas consoante o preço temos de fazer:


A [alfa] – (b[beta] x preço que queremos ver)

Ajustamento ao modelo – ANOVA – ver se o modelo geral e estatisticamente significativos

87
A media quadrática é igual a soma quadrática da regressãi
F = media quadrática da regressão/resíduos
F elevados identificam uma melhor qualidade do nosso modelo

Parâmetros individuais – tentamos perceber se cada parâmetro é estatisticamente diferente


da hipótese nula – ou seja se são todos estatisticamente significativos.
O valor observado é o declive da reta
O valor de t diz-nos se cada preditores é ou não diferente

Intervalos de confiança – tbm permitem testar a validade – eles indicam os valores mais
prováveis na população e não apenas na nossa amostra.
O valor mais baixo é o valor de confiança limite baixo
E o valor de cima é o valor de confiança limite elevado
95% nos IC, são aqueles 0,05 que não escolheram o mesmo etc (5% não rejeitamos a hipótese
nula qd ela devia ser rejeitada) . vem do ponto de corte p=0,05

Pressupsotos básicos da regressão linear


1. normalidade dos resíduos
Ver os nomes dos testes, diferentes formas de analisar a normalidade dos resíduos,
que estão nos slides – podemos pedir uma nova analise de regressão – criamos uma nova
variável estandardizada:
Analyse – regression – statisticas – residual – durbin e casewise continue – save – residual
standardizada – ok

a) os 3 1os testes
analyse – descritives – explore – usar a variável nova criada em cima e por na linha dos
dependentes – plos – steam-and-leaf – nrmality plots with tests – ok

a.1 kolgomorov se são significativos a normalidade é rejeitada, ou seja o erro não representa
aproximação a normal
a.2 normal qq plo – a reta (que é o model) tem alguns desvios (pontos) apenas alguns se
sobrepõem a reta, outliers – observações que se afastam mto mais da tendência – se clicar-

88
mos duas vezes no gráfico e usarmos a mira quadrada e pudermos em cima do ponto
descobrimos qual é o numero de caso
a.3. detrended – o erro devia estar normalizado em torno da reta, algumas não estoa e
outroas estão, vemos outliars

COMANDOS SPSS: Analyse → descriptive stataistis → explore → erro estarndardizado ZRE_1


→ plots → normalidade e histograma → OK (mostrar curva distribuicional nos elementos)
Dps ver a caixa de bigodes

histograma dos dados estandardizados


graphs - legacy – histograma – usar nova vairavel
vemos se há excesso ou observações, compaando com a observação normal – espaço brancos
e maiores que a curva normal, a media deve ter valores centralizados – podemos ver se há ou
não aproximação há normalidade para o erro

2. homocedasticidade – fenómeno em que a variância, ou seja a dispersão do erro e constante


em todos os pontos – idelamente e o padrao do erro aleatório, se houver um padrao no erro
então algo explica as variáveis para alem delas próprias
modelo heterogéneo – se tem padrao em forma de triangulo – hiderocedasticidade – o erro
tem um padrao por si so, que não é normal, ou seja, há algo que nfluencia este padrao.

Tbm podemos usar scatterplot para analisar a dispersão do erro: graphs


Z – é sempre uma variável estandardizada
- pre preditor
Resid – erro para dependente

Terte de durbin-watson – a variância entre duas variáveis não existe – ou seja a co variância
seja nula.
Valores mais próxima de 2 não ga autocorrelao entre os rasiduos
Valores próximo de 0, autocorrelaço positiva para um lado do gráfico
Valores próximos de 4, autocorrelaçao positica para o outro

Os outliars so devem ser excluídos se a observação não fizer parte da população

89
Para excluir: data-select cases – if condition – if – por a variável - ~= numero → este sinal é a
exceçao ou seja, pedimos todos os casos menos aquele em especifico.

12.05
Calcular variáveis artificiais
Compute variabel
Colocar nome variável
Colocar valor que que queremos que assum e fazer o if igual aos valores a que queremos que
corresponda
OK
Colocar o valor que queremos para os missing values da mesma variável e no if por os valores
~= do nmr que pusemos antes
OK

Para fazer os gráficos


Graphs – legacy – pontos – colocar a dependente no y e a independente no x – OK
Carregar em cima do gráfico – elementos – linha de ajuste total
(se a reta for horizontal não é linear)

90
Ex

Pessoas que estudaram mais têm notas mais elevadas

R^2 explica x% da variância → serem expressivas (nesta área trabalhos no valores baixos de
variância)

Método de inclusão de variáveis


Existem 5 método (na realidade 6 porque o 1º tem duas formas de ser usado)

91
1. método enter – todas as variáveis introduzidas ao mesmo tempo e ele diz-nos quais são
estatisticamente signficativas
Já sabendo qual explica a maior variância, podemos dizer quais são as que queremos que
entrem em primeiro lugar no modelo

2. metodo remove – funciona ao contrario do enter


3. m forward – a variável com correlaºao mais elevada é introduzida no modelo em primeiro
lugar e assim por diante ate já não haver variância da variável dependente por explica
4. m backward – vamos tirando as que tem as correlações mais fracas
5. stepwise – é uma relação entre dois métodos → são introduzidas à vez para ver qual tem a
maior variância explicada

→ r2 change
Trabalhamos com modelos diferentes
O modelo 1 – variável – explica x da variância
O modelo dois – 2 variáveis somadas – x da variância explicada

Este r2 change diz-nos se esta alteração da % da variania é significatica → é a mudança da


variância
Se for estatisticamente significativa retemos o modelo de baixo, se não retemos o que tem
maior variância explicada.

Fazer stepwise – analyze – regression -linear – colocar a variável dependente e a independente


– no metodo colocar stepwise – estatísticas – intervalos de confiança – durbin Watson –
diagnostico por casoo – alteração r - descritivas . correlação parciais e de parte – diagnósticos
de colineariedade – continue – salvar – padronizado para os valores preditos – nos resíduos:
padronizado e estudentizados (são uma transformação usando o t student) – continue – ok

92
Na 2ª tabela – correlações – vemos qual e a variável que tem a correlação mais alta, ou seja, a
que explica maior variância

Correlações
notas refeiçao horas escola_a escola_c
Correlação de Pearson notas 1,000 ,588 ,819 ,762 -,822
refeiçao ,588 1,000 ,315 ,533 -,367
horas ,819 ,315 1,000 ,658 -,699
escola_a ,762 ,533 ,658 1,000 -,500
escola_c -,822 -,367 -,699 -,500 1,000
Sig. (1 extremidade) notas . ,000 ,000 ,000 ,000
refeiçao ,000 . ,018 ,000 ,007
horas ,000 ,018 . ,000 ,000
escola_a ,000 ,000 ,000 . ,000
escola_c ,000 ,007 ,000 ,000 .
N notas 45 45 45 45 45
refeiçao 45 45 45 45 45
horas 45 45 45 45 45
escola_a 45 45 45 45 45
escola_c 45 45 45 45 45

Na 4 atabela – resumo do modelo


Vemos o r2 para cada modelo e depois o r2 change (os números do modelos e as letras
correspondem em termos daquilo que estamos a comparar/adicionar de um para outro)

Nota: neste caso a que explica a maior variância é a 4, por isso é a que retemos

Resumo do modeloe
Modelo R R quadrado Estatísticas d

93
R quadrado Erro padrão da Mudança de R
ajustado estimativa quadrado Mudança F d
1 ,822a ,676 ,668 1,370 ,676 89,570
2 ,916b ,840 ,832 ,974 ,164 43,018
3 ,931c ,866 ,856 ,902 ,026 8,028
4 ,947d ,897 ,887 ,801 ,031 11,947
a. Preditores: (Constante), escola_c
b. Preditores: (Constante), escola_c, escola_a
c. Preditores: (Constante), escola_c, escola_a, horas
d. Preditores: (Constante), escola_c, escola_a, horas, refeiçao
e. Variável Dependente: notas

Na 5ª tabela – ANOVA
Mostra o ajuste do modelo aos dados com o F value para cada um dos 4 modelos
- se olharmos independentemente so para o F, podemos ver qual tem o f mais elevado, que é
o que tem maior ajuste entre todos e ver se é ou não estatisticamente significativo -- nem
sempre o modelo que tem o f mais elevado é o que explica mais variancia

ANOVAa
Soma dos Quadrado
Modelo Quadrados df Médio Z Sig.
1 Regressão 168,100 1 168,100 89,570 ,000b
Resíduo 80,700 43 1,877
Total 248,800 44
2 Regressão 208,933 2 104,467 110,057 ,000c
Resíduo 39,867 42 ,949
Total 248,800 44
3 Regressão 215,461 3 71,820 88,325 ,000d
Resíduo 33,339 41 ,813
Total 248,800 44
4 Regressão 223,129 4 55,782 86,918 ,000e
Resíduo 25,671 40 ,642
Total 248,800 44
a. Variável Dependente: notas
b. Preditores: (Constante), escola_c
c. Preditores: (Constante), escola_c, escola_a
d. Preditores: (Constante), escola_c, escola_a, horas
e. Preditores: (Constante), escola_c, escola_a, horas, refeiçao

Na 6ª tabela – coeficientes
Permite-nos ver o ranking da explicação da variância no modelo

94
Ver se as variáveis independentes não partilham variância entre si, ou seja se são
independentes, ve-se na tolerância (qt mais baixo pior é, abaixo de 0.1 é problematico) e
no Vif (valores até 4)

Coeficien
Coeficientes
Coeficientes não padronizados padronizados 95,0
Modelo B Erro Erro Beta t Sig. Lim
1 (Constante) 15,433 ,250 61,705 ,000
escola_c -4,100 ,433 -,822 -9,464 ,000
2 (Constante) 14,267 ,252 56,714 ,000
escola_c -2,933 ,356 -,588 -8,245 ,000
escola_a 2,333 ,356 ,468 6,559 ,000
3 (Constante) 13,054 ,487 26,789 ,000
escola_c -2,291 ,400 -,459 -5,732 ,000
escola_a 1,798 ,380 ,361 4,737 ,000
horas 1,070 ,378 ,261 2,833 ,007
4 (Constante) 11,895 ,548 21,722 ,000
escola_c -2,035 ,363 -,408 -5,609 ,000
escola_a 1,208 ,378 ,242 3,196 ,003
horas 1,262 ,340 ,308 3,711 ,001
refeiçao ,353 ,102 ,212 3,456 ,001
a. Variável Dependente: notas

Tabela variáveis excluídas


- mostra em cada modelo que variável ficou de fora e qual tem valores absolutos (t) mais
elevados que é a próxima a ser adicionada.

Variáveis excluídasa
Estatísticas de colinearidade
Correlação Tolerância
Modelo Beta In t Sig. parcial Tolerância VIF mínima
1 refeiçao ,331b 4,170 ,000 ,541 ,866 1,155 ,866
horas ,478b 4,868 ,000 ,601 ,512 1,954 ,512
escola_a ,468b 6,559 ,000 ,711 ,750 1,333 ,750
2 refeiçao ,175c 2,523 ,016 ,367 ,702 1,424 ,608
horas ,261c 2,833 ,007 ,405 ,385 2,596 ,385
3 refeiçao ,212d 3,456 ,001 ,480 ,683 1,463 ,375
a. Variável Dependente: notas
b. Preditores no Modelo: (Constante), escola_c
c. Preditores no Modelo: (Constante), escola_c, escola_a
d. Preditores no Modelo: (Constante), escola_c, escola_a, horas

95
Analise dos pressupostos
Homocedasticidade
Graphs – legacy – scateer dot – dispersão simples – estândar predi no x e studentized resíduos
no y – OK

Durbin-watson – valores a volta de 2 diz que não há autocorrelaçao


Perto de 1 ou 0 autocorrelaçao positiva
Perto de 3 e 4 autocorrelação negativa

QQplot e dentred qq plot


Analyse – descriptive stataistis – explore – erro estarndardizado ZRE_1 – plots – normalidade e
histograma – OK (mpostrar curva distribuicional nos elementos)
Dps ver a caixa de bigodes

COMO REPORTAR:
Dizemos sempre qual o modelo que usamos
Qual o metodo de inclusão que ussamos
Qual o objetivo e quais são as dependentes e preditoras
Qual o modelo que mostrou melhor ajuste valor de F, r2
conclusoes

96
97

Você também pode gostar