Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Variável Nominal
- Selecionar apenas a Moda
- Gráfico Circular
A variável “localização do hotel” é uma variável nominal, ou seja, os números servem apenas
para dar nome. Por ser uma variável nominal, a medida de tendência central a observar é a
moda. A moda é uma medida de tendência central que demonstra a observação que ocorre
com maior frequência. Se observarmos o gráfico acima, verificamos que a ocorrência mais
frequente é “Beja”, cujo código numérico corresponde ao número 4. Esta observação ocorreu
13 vezes em valor absoluto, correspondente a 26% das observações
2. Variável Ordinal
- Selecionar Moda, Mediana, Quartis
A última variável em análise é a “satisfação dos clientes”, variável esta expressa numa escala
ordinal, isto é, o código numérico serve apenas para estabelecer uma relação de ordem. Por
ser ordinal, utilizamos como medidas de tendência central, a moda e a mediana, e para as
medidas de dispersão, observamos a distribuição das frequências e a amplitude interquartílica.
O valor da moda neste caso, corresponde ao código numérico 1, que diz respeito ao grupo
“Não gosto mesmo nada”, sendo este o que ocorre com maior frequência 12 observações em
valor absoluto, correspondente a 24% das observações). A mediana tem o valor 3,
correspondente, mais uma vez ao grupo “não gosto nem desgosto”. Quanto à amplitude
interquartílica, diferença aritmética entre os valores contidos no 3º quartil e 1ºquartil, esta
será equivalente a 4,00-1,75, ou seja, 2,25.
3. Variável em Escala
- Selecionar Moda, Média, Mediana, Desvio Padrão, Curtose, Mínimo, Máximo, Quartis.
- Histograma
A variável “Lotação de clientes” está expressa em escala quantitativa, ou seja, os números têm
significado numérico. Por ser quantitativa, nas medidas de tendência central observamos a
moda, a mediana e a média. Em termos de medidas de dispersão, observamos a distribuição
das frequências, a amplitude interquartílica e o desvio padrão. O valor da moda é de 85, sendo
esta a observação mais frequente. A mediana, que é uma medida de tendência central que
contém até 50% das observações quando estas foram ordenadas de forma crescente, tem
como valor 147,5. A média – medida de tendência central que reflete ou espelha o centro de
gravidade de uma distribuição – é de 149,16. Nas medidas de dispersão, mais concretamente
na distribuição das frequências, voltamos a verificar que houve um total de 50 observações,
todas elas válidas.
A amplitude interquartílica – medida de dispersão que demonstra a diferença aritmética entre
o valor contido no 3ºquartil e no 1ºquartil – equivale a 198,25 – 87,75, ou seja, 56,35.
Assimetria = Skewness
O valor da assimetria nunca é completamente 0, no caso do exemplo a assimetria é negativa -
0,42 < 0. V. Assimetria/ Erro Padrão = -0,42/0,337= -1,246 Ou seja, está dentro do intervalo [-
1.96; 1.96], por isso sabe-se que a distribuição da idade é enviesada à esquerda (assimetria
negativa).
Curtosis
V. Curtosis/ Erro padrão = -1,220/ 0,662 = - 1, 843 Ou seja, está dentro do intervalo [-1.96;
1.96], por isso a distribuição é aproximadamente mesocurtica
4. Estudos Correlacionais
Nota: As perguntas geralmente começam com Averigue a existência de relação
estatisticamente significativa entre as variáveis
Resposta:
Resposta:
O valor de SIG foi de 0,011 < 0,05, anulando a hipótese nula, neste caso a resposta é “Há
relação entre a variável A e B”. Dado que avaliamos a correlação de Spearman com sinal
positivo de 0,299, pelo que podemos afirmar que o sinal do coeficiente é positivo, ou seja (ex.)
quando a dificuldade da matéria aumenta, também aumenta a ansiedade face a exames, ou
quando a dificuldade da matéria diminui, a ansiedade face a exames diminui. Quanto à
magnitude do coeficiente de correlação que é de 0,299 e está entre 0,25 e 0,50, afirmamos
que a magnitude é moderada.
Nota: Quando o valor da SIG (0,05), é variável entre 0,05 e 0,1, os resultados são considerados
marginalmente significativos.; quando a variável é inferior a 0,01 os resultados são
considerados extremamente significativos.
- Sempre que o valor em parenteses na nota a. for menor ou igual a 20%, lemos o valor da
probabilidade de significância na alínea do Chi quadrado de Pearson. – Significância Assintótica
Quando a percentagem na alínea a. é >20%, lê-se o valor de probabilidade significância na
línea do teste Exato de Fisher. – SIG exta (2 lados).
5. Estudos Experimentais
Nota: As perguntas geralmente começam com Averigue a existência de diferenças
estatisticamente significativas entre a localização do hotel relativamente à satisfação das
agências de viagem.
H. Alternativa: A variável dependente não segue uma distribuição normal em todos os grupos
da variável independente. -> A variável dependente “preço” não segue uma distribuição
normal nos grupos não e sim da variável independente piscina.
- Analyze --> Explore --> Meter dados --> Descripitives --> Confidence interval for mean 95% -->
Plots (None; Normality plots with tests; untransformed)
- Utilizamos a Kolmogorov-Smirnov, ambas têm SIG superior a 0,05, por isso escolhemos a
hipótese nula, ou seja, a variável preço segue uma distribuição normal nos grupos sim e não da
variável independente piscina
2. Homogeneidade
H. Nula: A variável dependente tem variância homogénea
- Analisamos a SIG com base na média que é inferior a 0,005 e, por isso rejeitamos a hipótese
nula. E, por isso a variável dependente não tem variância homogénea.
Assim, a variável preço tem distribuição normal, mas não tem variância homogénea. SEMPRE
que o teste da normalidade siga uma distribuição normal, seguimos com a realização do T-test,
mesmo que a não tenha variância homogénea.
3. T-Test
- Analyze --> Compare Means --> Independent – Samples T-Test -> Define Group (inserir group
1 e Group 2)
- Quando há homogeneidade lemos na linha de cima, caso não haja homogeneidade lemos
sempre na linha de baixo. No caso do exemplo, não existindo homogeneidade, lemos a linha
de baixo. SIG é de 0,288 que é superior a 0,05 e, por isso, não rejeitamos a hipótese nula: Não
há diferença de preços entre os apartamentos com e sem piscina.
Nota: Quando o pressuposto da normalidade não se verifica, pode-se realizar o teste Mann-
Whitney ou, caso existissem 30 observações em sim e 30 em não, podemos evocar o teorema
do limite central: “De acordo com o teorema do limite central realizamos o teste paramétrico
T-student para amostras independentes pq de acordo com este teorema, quando as amostras
são valores elevados, assumimos que a média tem uma distribuição +- normal”.
Sempre que possível utilizar a sig exata. No caso, a sig é de 0,01 ou seja <0,005 e por isso
rejeitamos a hipótese nula, assim há diferenças na satisfação com o apartamento entre os
apartamentos com e sem piscina
1. Teste Normalidade
Assim, a sig é de 0,2, maior que 0,05, ou seja, não rejeitamos a hipótese nula o que significa
que a variável preço mantem uma distribuição normal nas 3 zonas da variável independente
zona.
2. Teste Homogeneidade
A variável é homogénea porque a variância baseada na média é de 0,160, maior que 0,005,
não rejeitando a hipótese nula, ou seja, a variável dependente (preço) tem variância
homogénea.
3. Teste A-Nova
- Analyze -> Compare Means --> One-Way A-Nova --> Options (Descriptive; Exclude cases
analysis by analysis; Level(%) 95%)
Nota: A sig é <0,001, menor que 0,005, rejeitando a hipótese nula. Contudo, como aqui temos
3 variáveis dentro da Zona (tem zona A, B e C), vamos ter que fazer um novo teste
- Analyze -> Compare Means --> One-Way A-Nova --> Post Hoc:
- Não há nenhum valor N menor ou maior em 50% que os outros, por isso vamos fazer
o teste --> Scheffle
- Se o valor N fosse menor ou maior em 50% que os outros, escolhia-se --> Gabriel
- Como a SIG é de 0,458, maior que 0,05, não rejeitamos a hipótese nula, ou seja, A zona não
influencia a satisfação com o apartamento.
- Temos que fazer a correção da SIG (0,05), ou seja, se são 3 testes fazemos
0,05/3=0,017; ou seja apenas rejeitamos a hipótese nula para valores menores ou iguais a
0,017.
- - Analyze --> Non Parametric Tests --> Legacy Dialogs --> 2 Independent Samples --> Define
Group (1 e 2; 1 e 3; 2 e 3) -> Fazer 3 testes diferentes para cada uma dos grupos)
6. Regressão
- No caso do teste ANOVA e T-test, temos variáveis independentes qualitativas, mas pode
acontecer que as VI sejam quantitativas. Ex: avaliar o impacto que tem a área do apartamento
e a sua idade no preço.
2º Fazer o quadrado da correlação: (ex: 0,8x0,8=0,64) -> impacto que uma variável tem sobre a
outra – relação entre as variáveis (0,64 – ex. as horas de estudo explicam 64% da variação das
notas académicas)
3º- Fazer um gráfico de dispersão - > Legacy Dialogs --> Scatter/Dot --> Simple Scatter --> X=
VD e Y= VI --> IR ao 5º Ícone a contar com a figura da mira --> Fit Line --> Linear
5º Analyze --> Regression --> Linear --> Dependent Preço; Independent (Área Idade)
6º Analisar ANOVA (Anova) – Sig -> Se valor p do teste <0,05 há evidência que pelo menos
uma variável no modelo, está relacionada com o preço
7º Analisar Variável Explicativa (Model Summary) – Rquarado (x% é explicada pelo modelo
com área e idade) -> Rquadrado ajustado (ligeiramente menor que o Rquadrado. Deve ser
utilizado para comparar modelos com diferentes quantidades de variáveis)
8º Analisar se cada Variável independente tem ou não capacidade explicativa (Coeficients) ->
Há evidências estatísticas de relação da área e da idade com o preço se os valores p-value/sig
<0,1. Se superior não existe evidências.
8º Construção do Modelo
- Na tabela “Coeficients” -> Y= (Constant) + (Ex: ÀREAm2 x Área (que aparecer na pergunta) –
(Ex: Idade do imóvel x Idade)
Nota: Caso peçam mais variáveis (caso das zonas) --> Utilizar a mesma base acima )
7. Relações Intra-Sujeitos
7.1 Quando há 2 variáveis independentes e 1 dependente são
quantitativas --> ttes for paired samples. Temos que ver o pressuposto
da normalidade (igual ao anterior da normalidade).
- Analyze --> Descriptive Statistics --> Explore --> Ver pressuposto de Normalidade ->
Correlações de Amostras Emparelhadas