Seminários de Metodologia II - Apontamentos

Seminário de Metodologia II
Apontamentos
Discente: Daniela Pereira, nº10249

MT-GEDT
Conteúdo
Conceitos Gerais da Estatística ..................................................................................................... 3
Análise das Variáveis ................................................................................................................. 3
População estatística vs Amostra.............................................................................................. 3
Teoria da Amostragem .............................................................................................................. 4
Design de Investigação/ Tipos de investigação do estudo........................................................ 5
Estatística Descritiva ..................................................................................................................... 5
Média, moda, mediana, quartis ................................................................................................ 5
Desvio Padrão............................................................................................................................ 6
Coeficiente de Variação ............................................................................................................ 6
Exemplo: Média, moda, mediana, desvio padrão, quartis e coeficiente de variação. ............. 6
Medidas de Forma .................................................................................................................... 7
Representações Gráficas ........................................................................................................... 9
SPSS ........................................................................................................................................... 9
Variável normalizada ................................................................................................................... 11
SPSS ......................................................................................................................................... 11
Erros do Teste Estatístico (decisão estatística) ........................................................................... 13
Estudos Correlacionais ................................................................................................................ 13
Qual o teste estatístico a realizar? .......................................................................................... 15
Quando ambas as variáveis são quantitativas, o teste a utilizar é o de Pearson. .............. 15
Quando as duas variáveis são ordinais ou 1 ordinal e 1quantitativa, usa-se o teste de
correlação de Spearman. .................................................................................................... 16
Quando uma das variáveis é qualitativa dicotómica e uma quantitativa, usa-se o teste
correlação Bisserial (no spss é equivalente à de pearson).................................................. 17
Quando há 2 variáveis qualitativas ou 1 qualitativa e 1 ordinal, usa-se o teste de
correlação de Chi-squared. ................................................................................................. 18
Resumo.................................................................................................................................... 20
Relação de Interdependência (Estudos experimentais) ............................................................. 20
Quando a variável dependente é quantitativa (peso, altura…) e a variável independente só
tem dois grupos (ex. género-feminino e masculino), realiza-se o teste T (T-TEST). ............... 20
Normalidade (<=0,05 rejeitamos hipótese nula) ................................................................ 20
Homogeneidade .................................................................................................................. 23
T-Test através do SPSS: ....................................................................................................... 24
Quando a variável dependente é ordinal e a variável independente só tem dois grupos,
realiza-se o teste Mann Whitney. ........................................................................................... 25
Quando a variável dependente é quantitativa e a variável independente tem 3 ou mais
grupos (ex. nacionalidade), realiza-se o teste One-Way ANOVA............................................ 27
1
Quando a variável dependente é ordinal e a variável independente tem 3 ou mais grupos,
realiza-se o teste Kruskal-Wallis.............................................................................................. 34
Regressão .................................................................................................................................... 39
Relações de Intra sujeitos ........................................................................................................... 46
Quando há 2 variáveis independentes e 1 dependente são quantitativas, utiliza-se o t-tes for
paired samples ........................................................................................................................ 46
Quando há 2 variáveis independentes e 1 dependente são ordinais, utiliza-se o Wilcoxon
Test. ......................................................................................................................................... 48
2
Seminários de Metodologia II
Método científico
-Etapas concetual, metodológica e empírica
Fase metodológica e empírica simultânea
Consultar as fases de cada etapa (slide 3)
Conceitos Gerais da Estatística

Variáveis em coluna organizada
Casas organizadas em linha
Se uma variável for binária só se usam 2 caracteres (ex. género feminino e masculino)
Análise das Variáveis

Variáveis qualitativas – os números não têm significado numérico
Nominal- os números significam nomes (servem para atribuir o rotulo) – ex. o número
de identificação de um atleta, nº do cc, género, nacionalidade… (o número identifica uma
pessoa)
Ordinal- não faz sentido calcular a média, mas a informação é mais rica do que a
nominal pq se pode estabelecer uma relação de ordem (ex. escalão do irs). Pode-se construir
uma relação de ordem através deste valor.
Por vezes, podem ser utilizadas como variáveis quantitativas (mas não deixam de ser
qualitativas) se os dados reunirem determinadas características, como ex. grau de satisfação
Variáveis quantitativas – (conceptual, mas na prática de tratamento de dados as escalas

quantitativas não se diferenciam) os números têm significado numérico. Podem ter um 0
natural ou convencional, o natural significa a ausência de algo (0€) enquanto que o
convencional caracteriza algo (0º)
Escalas de Rácio – com 0 naturais
Escalas de Intervalo – com 0 convencionais
População estatística vs Amostra

População - conjunto de elementos que possuem em comum pelo menos uma característica
especifica
Amostra tem que ser representativa da população
Quanto maior a dimensão da amostra, mais estes valores se aproximam da realidade da

população.
3
A população teórica pode ser tão grande que pode ser necessário utilizar um filtro criterioso
que torne a população teórica (ex. população portuguesa votante) em população acessível ou
em estudo (ex.população portuguesa votante com telefone fixo).
Da população acessível retira-se uma amostra, analisa-se os resultados e estes são

generalizados para a população teórica.
Teoria da Amostragem
Amostra Aleatória ou probabilística:
Simples - quando todos os elementos da população tiveram igual probabilidade de

fazer parte da amostra. Escolha aleatória da população. (ex. todos os alunos meterem o cartão
numa caixa e retirar aleatoriamente o cartão escolhido para amostra)
Estratificada- aleatória, mas com condições. Podemos estratificar quando há

conhecimento prévio de uma característica importante para a recolha de dados (ex. aula com
70 alunas e 10 alunos, colocar duas caixas com cartões- um para elas e um para eles- para
poder retirar, aleatoriamente 7 cartões de raparigas e 1 de rapaz). – deve haver menos
discrepância para a amostra simples
Amostra não probabilística
Conveniência – por algum motivo conveniente escolhe-se uma amostra para tentar
perceber alguma coisa sobre um assunto que não sabemos nada. (ex. jornalistas a entrevistar
pessoas de forma imediata) podem ser utilizadas como maldade (ex. ligar para um nr da tv
para saber se o treinador x se deve demitir)
Objetivo - filtração tendo em conta o objetivo do estudo e da abordagem a ser feita

(ex. procurar apenas famílias com crianças até aos 3 anos)
Especialistas - procura-se uma amostra de especialistas do objeto de estudo. Painel

sensorial (ex. enólogos, avaliação de menus de chef)
Quotas - semelhante à aleatória estratificada, mas nem todos têm a mm probabilidade

de ser escolhido (ex. nem todos os alunos foram às aulas mas são escolhidos na mesma as 7
raparigas e 1 rapaz)
heterogénea - pretende reunir o maior número de informação possível, o objetivo é

diversidade tendo mais pontos de vista diferentes sobre o objeto
bola de neve – estudo de fenómenos em população com difícil acesso (ex. estudo de
doenças raras) estuda-se uma pessoa e vai-se adquirindo novos contactos.
Amostra
Independente – cada elemento é independente em probabilidade
Emparelhada – todos sofrem o mesmo processo (ex: concurso da perda de peso)
4
Design de Investigação/ Tipos de investigação do estudo
Descritivo – propósito de compreender a situação. Usado em fase inicial quando há
menos info (ex. quem compra carros; onde vive x tipo de consumidor…)
Relacional – medir duas variáveis com coeficientes de correlação (mede a relação

entre 2 variáveis) - qual o grau de sincronização. NÃO estamos a medir a relação de causa
efeito entre as variáveis (ex. todos os dias o sol nasce e todos os dias o galo canta, mas o sol
não nasce porque o galo canta, mas a hora do galo cantar esta sincronizada com a hora do
nascer do sol)
Experimental – poder manipular variáveis. Fase de experimentar as várias situações

possíveis tendo em conta as variáveis dependentes- manipuláveis- e as variáveis
independentes- não manipuláveis.
Estatística Descritiva
Média, moda, mediana, quartis
A média pode não descrever toda a realidade.
Média- importante ver se a média representa bem o que estamos a medir
Moda – observação que ocorre com maior frequência
Mediana- número que fica no meio dos dados
No que diz respeito aos desvios em relação à média, é benéfico usar o desvio padrão. Usa-se
para saber a média dos desvios em relação à média.
A média amostral é um estimador centrado na média populacional.
Média é sensível a valores extremos.
Mediana não é sensível a valores extremos.
Média usa 100% das observações.
Mediana usa 50% das observações.
Amplitude interquartilica- Representa a diferença máxima que podemos encontrar na metade

da distribuição numérica.3º quartil-1º quartil
| | |
Q1 Mediana Q3
|_______|
Amplitude interquartil: Q3 – Q1= AIQ
Com a distribuição numérica repartida em quartis, podemos construir uma medida de

dispersão, a amplitude interquartilica, que se calcula com a diferença entre o valor que está
contido no 3º quartil e o do 1º quartil, o que representa a diferença máxima que se encontra
na metade das observações que estão no meio.
Q1- 25% das observações
5
Q3- 75% das observações
Desvio Padrão
-O desvio em relação à média é o número representado na observação a subtrair a média.
-A soma de todos os desvios em relação à média é igual a 0.
-Por isso é necessário elevar ao quadrado esse número que será sempre positivo, e dividi-lo
pelo número de observações. Aqui temos a média quadrática de todos os desvios em relação à
média. Mas o resultado fica em quadrático
-Necessário usar a raiz quadrada para ter o desvio expresso na medida certa. Pq a raiz com a
elevação ao quadrado eliminam-se.
-Assim obtemos a média de todos os desvios em relação à média.
-O desvio padrão representa a média de todos os desvios em relação à média.
O desvio padrão como unidade de medida em relação à média.
Para fixar a célula tem que se meter o dólar antes da célula e para fixar o número acrescentar
o dólar antes
A média nem sempre caracteriza convenientemente a distribuição numérica pq é sensível a

números muito diferentes dos restantes.
Como calcular o desvio padrão (amostral) quando é populacional é igual, mas calcula-se com o
N e não N-1:
1º- saber a média aritmética
2º- saber o desvio (ex: N-Média)
3º- Variancia- D1^2+D2^2… / N-1
4º- DP- Raiz quandrada da variancia
Coeficiente de Variação
O desvio padrão está sempre expresso nas mesmas medidas da média (kg, m, €…) e por isso é
possível fazer uma variação de dispersão. Esta é apresentada em percentagem. P. exemplo
dispersão de o peso de um cavalo faz-se DP.Cavalo/ P.MédioCavalos x 100= Coeficiente de
Variação. Quanto maior o CV, mais irregular.
Quando o CV é maior que 50% quer dizer que a média não está a caracterizar
convenientemente a distribuição numérica avaliada e, por isso, devemos usar a mediana.
Exemplo: Média, moda, mediana, desvio padrão, quartis e coeficiente de variação.
Idade dos alunos: 15; 17; 20; 25; 12; 15; 22
6
Média: (15+17+20+25+12+15+22)/ 7= 18
Moda: 15 (número q se repete mais vezes)
Mediana: 12 15 15 17 20 22 25 (número que separa a metade maior e menor)
Quartis: 12 15 15 17 20 22 25
|------|--------|------|------|
Amplitude interquartilica: 22-15= 7
Desvio padrão:
1º Passo: 25-18= 7; 22-18= 4; 20-18= 2; 17-18=-1; 15-18=- 3; 15-18=-3; 12-18= -6
2º Passo: Variância -> (7x7) + (4x4) + (2x2) + (-1x-1) + (-3x-3) + (-3x-3) + (-6x-6)/7-1= (49 + 16 +
4 + 1+ 9 + 9 + 36)/6= 124/6= 20, 67
3º Passo: Desvio Padrão é a raiz quadrada da variância -> √20,67 = 4,55
Coeficiente de variação: Desvio Padrão / Média x100%= 4,55/18 x100= 25,28%
Medidas de Forma
Valor da dispersão: diferença máxima na metade dos elementos que está no meio
Dados de dimensão normal: a distribuição é “normal”, a moda, média e mediana têm valores
bastante próximos.
Moda = mediana = média
Mais observações no centro
ASSIMETRIA POSITIVA (RIGHT SKEWED): Dados de dimensão enviesado à direita: distribuição é

enviesado à direita. Ex: o preço dos combustíveis em PT pode ser equiparado à média da
europa, mas, como a média é superior à mediana e à moda, e é sensível a valores extremos,
apesar da afirmação estar correta, é contraditória. Ainda que esteja na média, não deixa de
estar caro.
É positivo
Moda < mediana < média
7
ASSIMETRIA NEGATIVA (LEFT SKEWED): Dados de dimensão enviesado à esquerda: distribuição
enviesado à esquerda. A moda é superior à mediana e depois a média. Ex: uma empresa que
tenha muitos funcionários a ganhar 10 mil euros e poucos a ganhar 500, a média baixa
bastante e não é representativa. Assim, a moda é superior. Dizer a uma pessoa que ganha
500€ que o ordenado médio da empresa é 5 mil euros é desajustado. – A média não
caracteriza convenientemente o que está a ser avaliado.
É negativo
Moda > mediana > média
CURTOSE: A curtose ou achatamento mede a concentração ou dispersão dos valores de um

conjunto de valores em relação às medidas de tendência central em uma distribuição de
frequências conhecida (a distribuição Normal).
Quando os afastamentos em relação à média são poucos, ou seja, muito concentrados perto
na média, estamos na presença de uma distribuição Leptokortica. A distribuição é mais alta de
que uma distribuição normal. Caudas longas e pesadas.
Quando os afastamentos em relação à média são maiores, ou seja, menos concentrados em

torno da média, tornou-se a distribuição Platickortica. A distribuição é menor que uma
distribuição normal. Caudas leves e curtas.
Distribuição Mesocurtica, com caudas neutras. A distribuição apresenta uma curva de

frequências idênticas a da distribuição Normal.
8
Representações Gráficas
A análise estatística tem sempre como ponto de partida a identificação da escala de medida
em que as variáveis estão expressas. Podem ser: nominais, ordinais ou quantitativas.
Quando a variável é nominal, podemos só calcular a medida de tendência central, a moda, e a

medida de dispersão a própria tabela de frequências. A representação gráfica indicada é o
gráfico circular.
Quando a variável é ordinal, podemos calcular a medida de tendência central, a moda e a

mediana, e a medida de dispersão a própria tabela de frequências e a amplitude
interquartilica. A representação gráfica indicada é o gráfico barras.
Quando a variável é quantitativa, podemos calcular a medida de tendência central, a moda, a

mediana e a média, e a medida de dispersão a própria tabela de frequências, a amplitude
interquartilica e o desvio padrão. A representação gráfica indicada é o histograma.
Dica de EXCEL: usar colar especial para fixar nrs e não formulas
SPSS
Analise estatística: Para calcular todas as medidas de tendência central, dispersão,
forma e representações gráficas.
9
Análise estatísticos números quantitativos: (+ display frequency table)
10
Variável normalizada
Permite a comparação entre várias distribuições. A variável normalizada normalmente é

representada pela letra Z e é igual à diminuição de cada observação da variável pelo seu desvio
em relação à média a dividir pelo desvio padrão (Z= (O-M)/DP).
Mede distâncias positivas e negativas.
Qualquer variável normalizada tem sempre média 0 e desvio padrão 1.
Ex: Aluno A e aluno B
Aluno A: 12 valores / Turma com média de 10 valores
Aluno B: 15 valores / Turma com média de 18 valores
Desvio Padrão: 1
Então: Aluno A: 12-10=2 e 2/1=2
Aluno B: 15-18= -3 e -3/1= -3
Ou seja, tendo em conta o contexto, o aluno A ficou a cima da média 2 unidades de desvio
padrão e o aluno B ficou a baixo da média 3 unidades de desvio padrão, assim sendo o aluno A
teve melhor desempenho académico que o B.
SPSS
11
Assimetria = Skewness
O valor da assimetria nunca é completamente 0, no caso do exemplo anterior a assimetria é

positiva 0.860>0.
V. Assimetria/ Erro Padrão = 0.860/0.283= 3.039
Ou seja, está fora do intervalo [-1.96; 1.96], por isso sabe-se que a distribuição da idade é
enviesada à direita.
Curtosis
V. Curtosis/ Erro padrão = 0.636/ 0.559= 1.138
Ou seja, está dentro do intervalo [-1.96; 1.96], por isso a distribuição é aproximadamente
mesocurtica.
Permite ter uma visão sobre a distribuição numérica sem ser necessário visualizar o
histograma.
12
Erros do Teste Estatístico (decisão estatística)
Type 1 Error (representação: a): Afirma-se que a doente tem asma mas não é verdade (falso
positivo)
Correct decision: Nunca é uma decisão perfeita, tomou-se uma decisão correta com uma
probabilidade de 1 – a (erro tipo 1) – maior especificidade
Type 2 Error (representação: B): Afirma-se que a doente não tem asma mas ela tem (falso
negativo)
Correct Decision: Tomou-se a decisão correta com uma probabilidade de 1 – B (erro tipo2) –
tem maior sensibilidade, maior potência
Estudos Correlacionais
Esclarece-nos sobre a relação de interdependência entre duas variáveis. Todos os dias o sol
nasce e todos os dias o galo canta, mas não quer dizer que se o galo não cantar, o sol deixa de
nascer. – Fenómenos de Sincronização
Sincronização no comportamento das variáveis.
O objetivo é SEMPRE encontrar uma resposta a uma questão de investigação.
Uma questão de investigação tem que ter obrigatoriamente uma operacionalização estatística!
Tem que esclarecer qual o tratamento estatístico para responder a uma questão.
Ex: Existe relação entre a ansiedade sentida antes de um teste e a idade dos alunos?
Nestes estudos correlacionais há duas possíveis respostas ou hipóteses que têm que ser
contraditórias uma à outra.
13
A primeira hipótese é a Hipótese Nula que corresponde ao número 0 (não há diferenças/
relação). Começa sempre com a palavra “NÃO”. Ex: Não há relação entre o preço do
apartamento e a sua localização.
A segunda Hípotes é a Hipótese Alternativa onde há relação entre as variáveis. Ex: Há relação
entre o preço do apartamento e a sua localização.
Para saber qual das duas respostas é a definitiva, é necessário realizar um teste estatístico que
deriva da questão de investigação.
Se rejeitarmos a h. nula, a resposta é a hipótese alternativa, se não rejeitamos a h. nula, essa é

a resposta acertada.
Quando o valor da probabilidade de significância (p-value ou SIG) é inferior ou igual a 0,05

(5%), rejeitamos a hipótese nula. Se for maior, não rejeitamos a hipótese nula.
O sentido e a magnitude só aparecem nos 3 primeiros testes.

2 valores:
Valor da probabilidade de significância (p-value ou Sig)
Estatística do teste
Magnitude Sentido
Em módulo (0;1) Sinal (quando existe)
Entre 0 e 0,25 > magnitude fraca (-) relação negativa
Entre 0,25 e 0,5 > magnitude moderada (+) relação positiva
Entre 0,5 e 0,75 > magnitude forte
Entre 0,75 e 1 > magnitude muito forte
Objetivo:
Rejeitamos ou Não Rejeitamos a H0?
No SPSS:
Analyze
Correlate
Bivariate
Selecionar os dados
14
Qual o teste estatístico a realizar?
Quando ambas as variáveis são quantitativas, o teste a utilizar é o de Pearson.
Usa-se sempre priemeiro a ultima estatistica a analisar.
15
Correlação: Sinal positivo com uma magnitude moderada (0,25 – 0,50).
Exemplo:
P: Averigue a existência de relação entre a variável A e b
R: H. Nula: Não há relação entre a variável A e B. H. Alternativa: Há relação entre a variável A e

B. (confirmar as escalas e escolher o teste de correlação correto). O valor de SIG foi de 0,011 <
0,05, anulando a hipótese nula, neste caso a resposta é “Há relação entre a variável A e B”.
Dado que avaliamos a correlação de Pearson com sinal positivo de 0,299, pelo que podemos
afirmar que o sinal do coeficiente é positivo, ou seja (ex.) quando a dificuldade da matéria
aumenta, também aumenta a ansiedade face a exames, ou quando a dificuldade da matéria
diminui, a ansiedade face a exames diminui. Quanto à magnitude do coeficiente de correlação
que é de 0,299 e está entre 0,25 e 0,50, afirmamos que a magnitude é moderada.
(só analisamos o sentido e a correlação SE a hipótese nula for anulada.)
Quando as duas variáveis são ordinais ou 1 ordinal e 1quantitativa, usa-se o teste de

correlação de Spearman.
16
Quando o valor da SIG (0,05), é variável entre 0,05 e 0,1, os resultados são considerados
marginalmente significativos.; quando a variável é inferior a 0,01 os resultados são
considerados extremamente significativos.
Quando uma das variáveis é qualitativa dicotómica e uma quantitativa, usa-se o teste
correlação Bisserial (no spss é equivalente à de pearson).
Análise: rejeitamos a hipótese nula. A correlação é de -0,279, ou seja, é negativa. Não faz
sentido dizer que há medida que o curso aumenta, a ansiedade diminui, por isso deve-se
17
verificar os códigos associados ao curso. No caso 0-Engenharia e 1- Ciências Sociais. Assim, os
maiores valores de ansiedade face a exames estão associados aos alunos de curso de
engenharia e vice-versa. Tendo em conta de que a correlação é de -0,279, esta no intervalo
0,25 e 0,5, dizemos que a magnitude é moderada.
Quando há 2 variáveis qualitativas ou 1 qualitativa e 1 ordinal, usa-se o teste de correlação de

Chi-squared. (aqui só se avalia o SIG)
18
Sempre que o valor em parenteses na nota a. for menor ou igual a 20%, lemos o valor da
probabilidade de significância na alínea do Chi quadrado de Pearson. – Significância Assintótica
Quando a percentagem na alínea a. é >20%, lê-se o valor de probabilidade significância na

línea do teste Exato de Fisher. – SIG exta (2 lados).
19
Resumo:
Relação de Interdependência (Estudos experimentais)

Temos que olhar para a escala de medida em que as variáveis estão expressas. Quando existe
relações de dependência a atenção deve requerer na variável dependente.
Quando a variável dependente é quantitativa realizam-se testes paramétricos, quando a

variável dependente não é quantitativa realizam-se testes não paramétricos.
Os testes paramétricos utilizam os valores originais da variável, os testes não paramétricos

temos que transformar as observações iniciais em raking (p. exemplo a pessoa com menor
salário tem atribuído o raking 1), ou seja, não trabalha com variáveis originais, mas com a sua
ordenação.
Nos testes paramétricos (T-test e ANOVA), têm que ser analisados os 2 pressupostos: testes
analisados previamente aos testes paramétricos.
(Nota SPSS Apartamentos turísticos: se quisermos operacionalizar uma variável qualitativa

como se fosse quantitativa temos que a transformar numa variável “dunnie” (?), ou seja, uma
falsa variável quantitativa, mas pode ser tratada como quantitativa. Ex. o apartamento ou está
na zona A, B ou C; metemos como referência a zona A e assim temos 2 variáveis- quando a
variável está na zona A, quer dizer que não está na B ou C (0); quando a variável está na B, ela
não está na A nem na C (0) mas sim na B (1); quando a variável está na C, ela não está na A
nem na B (0) mas sim na C (1).)
Quando a variável dependente é quantitativa (peso, altura…) e a variável

independente só tem dois grupos (ex. género-feminino e masculino), realiza-se o teste
T (T-TEST).
Exemplo: Apartamentos Turísticos
Há diferenças de preço entre os apartamentos com e sem piscina?
A variável dependente é o preço e a independente a piscina (que tem dois grupos: sim ou não).
Primeiro temos que testar o pressuposto da normalidade e da homogeneidade:
Normalidade (<=0,05 rejeitamos hipótese nula)
H. Nula: A variável dependente segue uma distribuição normal em todos os grupos da variável
independente. -> A variável dependente “preço” segue uma distribuição normal nos grupos
não e sim da variável independente piscina.
20
H. Alternativa: A variável dependente não segue uma distribuição normal em todos os grupos
da variável independente. -> A variável dependente “preço” não segue uma distribuição
normal nos grupos não e sim da variável independente piscina.
Passos SPSS (calcula o teste de normalidade e de homogeneidade)
21
22
Testes de Normalidade
Kolmogorov-Smirnova Shapiro-Wilk
Ter piscina Estatística gl Sig. Estatística gl Sig.
Preço Não ,121 30 ,200* ,941 30 ,096
Sim ,223 10 ,172 ,910 10 ,283
*. Este é um limite inferior da significância verdadeira.
a. Correlação de Significância de Lilliefors
Utilizamos a Kolmogorov-Smirnov, ambas têm SIG superior a 0,05, por isso escolhemos a
hipótese nula, ou seja, a variável preço segue uma distribuição normal nos grupos sim e não da
variável independente piscina.
Homogeneidade
H. Nula: A variável dependente tem variância homogénea
H. alternativa: A variável dependente não tem variância homogénea.
Analisamos a SIG com base na média que é inferior a 0,005 e, por isso rejeitamos a hipótese
nula. E, por isso a variável dependente não tem variância homogénea.
Assim, a variável preço tem distribuição normal, mas não tem variância homogénea.
SEMPRE que o teste da normalidade siga uma distribuição normal, seguimos com a realização
do T-test, mesmo que a não tenha variância homogénea.
23
T-Test através do SPSS:
24
Quando há homogeneidade lemos na linha de cima, caso não haja homogeneidade lemos
sempre na linha de baixo.
No caso do exemplo, não existindo homogeneidade, lemos a linha de baixo. SIG é de 0,288 que
é superior a 0,05 e, por isso, não rejeitamos a hipótese nula: Não há diferença de preços entre
os apartamentos com e sem piscina.
Quando o pressuposto da normalidade não se verifica, pode-se realizar o teste Mann-Whitney

ou, caso existissem 30 observações em sim e 30 em não, podemos evocar o teorema do limite
central: “De acordo com o teorema do limite central realizamos o teste paramétrico T-student
para amostras independentes pq de acordo com este teorema, quando as amostras são
valores elevados, assumimos que a média tem uma distribuição +- normal”.
Quando a variável dependente é ordinal e a variável independente só tem dois grupos,

realiza-se o teste Mann Whitney.
Exemplo:
Há diferenças entre os apartamentos com e sem piscina ao nível da satisfação com o

apartamento?
H. Nula: não há diferenças na satisfação com o apartamento entre os apartamentos com e sem
piscina
H. alternativa: há diferenças na satisfação com o apartamento entre os apartamentos com e

sem piscina
25
26
Sempre que possível utilizar a sig exata.
No caso, a sig é de 0,01 ou seja <0,005 e por isso rejeitamos a hipótese nula, assim há
diferenças na satisfação com o apartamento entre os apartamentos com e sem piscina.
Quando a variável dependente é quantitativa e a variável independente tem 3 ou mais

grupos (ex. nacionalidade), realiza-se o teste One-Way ANOVA.
Há diferenças de preço dos apartamentos em função da zona?
H. Nula: não há diferenças de preço dos apartamentos em função da zona
H. alternativa: diferenças de preço dos apartamentos em função da zona
27
1º-testar a normalidade e homogeneidade da variância
28
Assim, a sig é de 0,2, maior que 0,05, ou seja, não rejeitamos a hipótese nula o que significa
que a variável preço mantem uma distribuição normal nas 3 zonas da variável independente
zona.
29
A variável é homogénea porque a variância baseada na média é de 0,160, maior que 0,005,
não rejeitando a hipótese nula, ou seja, a variável dependente (preço) tem variância
homogénea.
2º- teste ANOVA
30
A sig é <0,001, menor que 0,005, rejeitando a hipótese nula. Contudo, como aqui temos 3
variáveis dentro da Zona, vamos ter que fazer um novo teste.
31
Não há nenhum valor N menor ou maior em 50% que os outros, por isso vamos fazer o teste:
32
Se o valor N fosse menor ou maior em 50% que os outros, escolhia-se:
Se a variância não for homogénea:
33
Resultado do teste Scheffe:
H. Nula: não há diferenças de preço dos apartamentos em função da zona
H. alternativa: diferenças de preço dos apartamentos em função da zona
Analisar a coluna SIG: entre a zona A e a zona B, a sig é de 0,491, superior a 0,05, por isso não
rejeitamos a hipótese nula, no caso “não há diferença de preços entre a zona A e a zona B”;
entre a zona A e a zona C, a sig é de <0,001, inferior a 0,005, por isso rejeitamos a hipótese
nula, ou seja “há diferença de preços entre a zona A e a zona C”; finalmente, entre a zona B e a
zona C, a sig é de <0,001, menor que 0,005, por isso rejeitamos a hipótese nula, ou seja, “há
diferença de preços entre a zona B e a zona C”.
Quando a variável dependente é ordinal e a variável independente tem 3 ou mais

grupos, realiza-se o teste Kruskal-Wallis.
Exemplo: A Zona influencia a satisfação com o apartamento?
H Nula: A zona não influencia a satisfação com o apartamento.
H Alternativa: A zona influencia a satisfação com o apartamento.
34
35
R: Como a SIG é de 0,458, maior que 0,05, não rejeitamos a hipótese nula, ou seja, A
zona não influencia a satisfação com o apartamento.
Contudo, SE HOUVESSE DIFERENÇAS:
- Temos que fazer a correção da SIG (0,05), ou seja se são 3 testes fazemos 0,05/3=0,017; ou
seja apenas rejeitamos a hipótese nula para valores menores ou iguais a 0,017.
- Ver individualmente as diferenças das zonas (A vs B; A vs C; B vs C)
36
Analise 1: A sig exata é superior à sig ajustada de 0,017 (0,05/3), por isso não rejeitamos a
hipótese nula, ou seja, não há diferença na satisfação com o apartamento tendo em conta a
zona.
37
FAZER O MESMO DE ANTES, MAS ALTERAR OS GRUPOS 1 E 2 PARA 1 E 3.
Análise: Como a sig é de 0,347, superior a 0,05, não rejeitamos a hipótese nula, ou seja, não há
diferença na satisfação do apartamento tendo em conta a zona.
FAZER O MESMO DE ANTES, MAS ALTERAR OS GRUPOS 1 E 3 PARA 2 E 3.
Análise: Como a sig é de 0,277, superior a 0,05, não rejeitamos a hipótese nula, ou seja, não há
diferença na satisfação do apartamento tendo em conta a zona.
38
Resumo:
Regressão
No caso do teste ANOVA e T-test, temos variáveis independentes qualitativas, mas pode
acontecer que as VI sejam quantitativas. Ex: avaliar o impacto que tem a área do apartamento
e a sua idade no preço.
Com a análise de regressão podemos estimar o preço de um apartamento tendo em conta a

sua área e idade.
1º Ir ao capítulo da correlação e calcula-la, chegando à magnitude
2º Fazer o quadrado da correlação: 0,8x0,8=0,64 -> impacto que uma variável tem sobre a
outra – relação entre as variáveis (0,64 – ex. as horas de estudo explicam 64% da variação das
notas académicas)
3º- Fazer um gráfico de dispersão
39
40
41
R2 Linear = 0,335 é o coeficiente de correlação de Pearson
Ou seja 33,5% da variabilidade no preço é explicada pela área em metros quadrados dos
apartamentos.
No retângulo no meio do gráfico está o sinal (+) que indica que a inclinação da reta é positiva.
Ou seja, quanto maior a área do apartamento, maior o preço e quanto menor a área, menor o
preço.
REPETIR OS PASSOS EM CIMA MAS ALTERAR A X AXIS PARA “IDADE”
42
R Linear- 0,120
Ou seja 12% da variabilidade no preço é explicada pela idade dos apartamentos.
No retângulo no meio do gráfico está o sinal (-) que indica que a inclinação da reta é negativa.
Ou seja, quanto maior a idade do apartamento, menor o preço e quanto menor a idade, maior
o preço.
De seguida:
43
1º- Analisar: (utilizamos a sig de 0,1)- Podemos utilizar varias variaveis
2º- Analisar- Variável Explicativa
3º- Analisar – Se cada variável independente tem ou não capacidade explicativa.
4º Construção do Modelo
Y= 359764 + (7498 x Área) – (19223 x Idade)
359764 -> Constate B – valor previsto quando a área é 0 e a idade é 0
7498 -> Área B – Aumento previsto no preço a cada m2 a mais, mantida a idade constante
-19223 -> Idade do imóvel B – Diminuição prevista no preço a cada ano a mais, mantida a área
constante
Exemplo: Qual o preço do apartamento com 6 anos de idade e 125 m2?
Y= 359764 + (7498 x 125) – (19223 x 6)= 1 181 076
44
Nota: Para ter o melhor modelo com menor número de variáveis, vai-se experimentando
alterar as variáveis independentes. Isto avalia-se no no 2º passo- adjusted r square.
Modelo para mais variantes:
Área/ Idade/ Zona B/ Zona C (se nas zonas estiver 0 é pq não pertence, se estiver 1 é pq
pertence)
Ex: Pertence à zona A
Y= 359764 + (7498 x 125) – (19223 x 6) + (134169 x 0) + (293926 x 0)
Ex: Pertence à zona B
Y= 359764 + (7498 x 125) – (19223 x 6) + (134169 x 1) + (293926 x 0)
Ex: Pertence à zona C
Y= 359764 + (7498 x 125) – (19223 x 6) + (134169 x 0) + (293926 x 1)
45
Relações de Intra sujeitos
Number of Temporal Moments (or Differences Tests (Intra-subject Context)
Experimental Conditions) of the
Independent Variable and Dependent
Variable Measurement Scale
• 2 for Independent Variable (IV) and t – Test for Paired Samples (t)
Dependent Variable (DV) Scale (Assumptions: normality)
(parametric tests)
• 2 for Independent Variable (IV) and Wilcoxon Test (Z)
Dependent Variable (DV) Ordinal (non-
parametric tests)
•
Research question: 3 or
AreMore
there Groups forinIndependent
differences Repeated
the variable “Y2”, between moment 1 and Measurements
moment 2? ANOVA (F)
Variable (IV) and Dependent Variable (Assumptions: normality)
H0 : There is no differences between moment 1 and moment 2 in relation to variable “Y 2”.
(DV) Scale (parametric tests)
H1 : There is differences between moment 1 and moment 2 in relation to variable “Y 2”.
• 3 or More Groups for Independent Friedman test (𝜒 2 )
Research question: Variable (IV)
Are there and Dependent
differences Variable
in the variable “Y3”, between experience 1 and experience 2?
(DV) Ordinal (non-parametric tests)
H0 : There is no differences between experience 1 and experience 2 in relation to variable “Y 3”.
H1 : There is differences between experience 1 and experience 2 in relation to variable “Y 3”.
ASSUMPTIONS
Normality
H0 : The dependent variable (Y), follows a normal distribution in all groups of the independent variable (X).
H1 : The dependent variable (Y), does not follows a normal distribution in all groups of the independent variable (X).
Quando há 2 variáveis independentes e 1 dependente são quantitativas, utiliza-se o t-

tes for paired samples. Temos que ver o pressuposto da normalidade (igual ao anterior da
normalidade).
46
Como a sig é >0,05, a distribuição é normal pq não há variância significativa.
A sig é >0,05 ou seja, não rejeitamos a hipótese nula que é “não existe relação de correlação
entre as duas variáveis.
47
Quando há 2 variáveis independentes e 1 dependente são ordinais, utiliza-se o
Wilcoxon Test.
Sig 0,094 < 0,1 por isso rejeitamos a hipótese nula o que quer dizer que há diferenças quanto
ao grau de dificuldade da matéria de inglês e matemática.
Analisando a coluna N, vemos que 37> 19, por isso lemos a alínea A. Assim a dificuldade da
matéria de inglês em avaliação é superior à de matemática.
48

Seminários de Metodologia II - Apontamentos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Seminários de Metodologia II - Apontamentos

Enviado por

Direitos autorais:

Formatos disponíveis

Seminário de Metodologia II

Discente: Daniela Pereira, nº10249

-Etapas concetual, metodológica e empírica

Fase metodológica e empírica simultânea

Consultar as fases de cada etapa (slide 3)

Conceitos Gerais da Estatística

Casas organizadas em linha

Análise das Variáveis

Variáveis quantitativas – (conceptual, mas na prática de tratamento de dados as escalas

Escalas de Rácio – com 0 naturais

Escalas de Intervalo – com 0 convencionais

População estatística vs Amostra

Amostra tem que ser representativa da população

Quanto maior a dimensão da amostra, mais estes valores se aproximam da realidade da

Da população acessível retira-se uma amostra, analisa-se os resultados e estes são

Simples - quando todos os elementos da população tiveram igual probabilidade de

Estratificada- aleatória, mas com condições. Podemos estratificar quando há

Amostra não probabilística

Objetivo - filtração tendo em conta o objetivo do estudo e da abordagem a ser feita

Especialistas - procura-se uma amostra de especialistas do objeto de estudo. Painel

Quotas - semelhante à aleatória estratificada, mas nem todos têm a mm probabilidade

heterogénea - pretende reunir o maior número de informação possível, o objetivo é

Independente – cada elemento é independente em probabilidade

Emparelhada – todos sofrem o mesmo processo (ex: concurso da perda de peso)

Relacional – medir duas variáveis com coeficientes de correlação (mede a relação

Experimental – poder manipular variáveis. Fase de experimentar as várias situações

Média- importante ver se a média representa bem o que estamos a medir

Moda – observação que ocorre com maior frequência

Mediana- número que fica no meio dos dados

A média amostral é um estimador centrado na média populacional.

Média é sensível a valores extremos.

Mediana não é sensível a valores extremos.

Média usa 100% das observações.

Mediana usa 50% das observações.

Amplitude interquartilica- Representa a diferença máxima que podemos encontrar na metade

Amplitude interquartil: Q3 – Q1= AIQ

Com a distribuição numérica repartida em quartis, podemos construir uma medida de

Q1- 25% das observações

-A soma de todos os desvios em relação à média é igual a 0.

-Assim obtemos a média de todos os desvios em relação à média.

-O desvio padrão representa a média de todos os desvios em relação à média.

O desvio padrão como unidade de medida em relação à média.

A média nem sempre caracteriza convenientemente a distribuição numérica pq é sensível a

1º- saber a média aritmética

2º- saber o desvio (ex: N-Média)

3º- Variancia- D1^2+D2^2… / N-1

4º- DP- Raiz quandrada da variancia

Exemplo: Média, moda, mediana, desvio padrão, quartis e coeficiente de variação.

Idade dos alunos: 15; 17; 20; 25; 12; 15; 22

Moda: 15 (número q se repete mais vezes)

Mediana: 12 15 15 17 20 22 25 (número que separa a metade maior e menor)

Amplitude interquartilica: 22-15= 7

1º Passo: 25-18= 7; 22-18= 4; 20-18= 2; 17-18=-1; 15-18=- 3; 15-18=-3; 12-18= -6

3º Passo: Desvio Padrão é a raiz quadrada da variância -> √20,67 = 4,55

Coeficiente de variação: Desvio Padrão / Média x100%= 4,55/18 x100= 25,28%

Moda = mediana = média

Mais observações no centro

ASSIMETRIA POSITIVA (RIGHT SKEWED): Dados de dimensão enviesado à direita: distribuição é

Moda < mediana < média

Moda > mediana > média

CURTOSE: A curtose ou achatamento mede a concentração ou dispersão dos valores de um

Quando os afastamentos em relação à média são maiores, ou seja, menos concentrados em

Distribuição Mesocurtica, com caudas neutras. A distribuição apresenta uma curva de