Você está na página 1de 8

Análise de Dados – Guião para Exame

Teste de hipóteses:
 H 0 – hipótese nula, não há associação de variáveis. F(XCA) = F (XSA)
 H 1 – hipótese alternativa, há uma associação. F(XCA) ≠ F(XCA)
 Margem de erro.

Testes Paramétricos:
1. Teste de Igualdade de Duas Médias (amostras independentes, populações
independentes e amostras emparelhadas, mesmo indivíduos com condições
idênticas em diferentes espaços de tempo)
2. Teste de Igualdade de Várias Médias
3. Teste de Comparações Múltiplas (variância homogénea – TESTE DE TUKEY – e
variância não homogénea – TESTE DE GAMES-HOWELL) Executado após a
ANOVA, para verificar onde se situam as diferenças. .

1. Amostras Independente: têm maior erro de margem visto que existem


variáveis, sobre as quais não temos controlo, que influenciam o resultado. A
probabilidade de significância corresponder à probabilidade da diferença se repetir na
nossa população. Tem de se realizar o teste de normalidade e de homocedasticidade
(população tem de ser homogénea da variável dependente (1) – Levene’s Test for
Equality of Variances). Depois realiza-se o T-Student. Amostras Emparelhadas: é
necessário criar uma nova variável para calcular a normalidade, neste tipo de amostras.
A nova variável é calculada através da diferença entre as duas variáveis selecionadas.
Paired Samples T Test ver sig. (Tem de se rejeitar a hipótese nula). Apaga-se
Paired Samples Correlations. Geral: é necessário fazer testes de normalidade
antes de tudo. Os resultados têm de ter distribuição normal. Quanto mais alto for a
probabilidade de significância (sig), mais normal é . O mínimo é 0,05. Cria-
se duas hipóteses (ho são iguais, h1 diferentes).

SPSS  Analyse  Compare Means  Independent-Samples T Test

2. Igual ao anterior. Tem de se calcular a normalidade e verificar uma distribuição


homóloga. Cria-se duas hipóteses: h 0 (todos os resultados são iguais) e h 1 (pelo
menos 1 é diferente). A ANOVA tem de ser inferior a 0,05 para se rejeitar a
hipótese nula. Se a variância não for igual mas a dimensão for, pode-se continuar a
interpretar os dados. Ver intervalos de confiança.

SPSS  Analyse  Compare Means  One-Way ANOVA


Options: Descriptive, Homogeneity
of Variance test, Exclude Cases
Analysis by Analysis
Quando se está no compute variables, se o código não for um número, é necessário
metê-lo entre “ ” (aspas). Se quisermos inserir mais que um, codifica-se como or
variável = “código”

Pode-se fazer um novo ficheiro apenas com os casos que queremos:


1º Data  2º Select Cases  3º Copy selected cases to new data set

Testes Não Paramétricos: tem menos capacidade de mostrar/identificar


uma diferença quando ela existe. Não é necessário fazer testes de
normalidade. É apenas para variáveis ordinais e variáveis com distribuição não
normal quantitativa. H o , distribuição de ambas as variáveis são idênticas. H 1 ,
distribuição das variáveis são diferentes. Mann-Whitney se forem 2 variáveis
independentes. Kruskal-Wallis se forem mais de 2 variáveis independentes. Mean
Rank é a soma das posições dos resultados dividido pelo número da amostra. Mann-
Whitney (1): h0, a distribuição da variável dependente é idêntica nas duas populações, h1
a distribuição da variável dependente não é idêntica. Tem de se rejeitar a hipótese
nula (test statistics). Kruskal-Wallis: Mesma lógica que o MannWhitney.

SPSS  Analyze  Nonparametric tests  Legacy Dialogs  2


Independent Samples

Shapiro-Wilk: amostra até 50 indivíduos

Kolmogorov-Smirnov: amostra com mais de 50 indivíduos

Non Parametric  Legacy Dialogues  2 Independent Sentences

Tabelas de contigência: para verificar se as variáveis qualitativas são


dependentes ou não . Se a tabela for tamanho 2 x 2, aplica-se o Teste de Fisher . Se
o tamanho da tabela for maior, realiza-se o Teste do Qui-quadrado . Criam-se duas
hipóteses, h 0 (são independentes) e h 1 (há associação) .

Como realizar o teste do qui-quadrado:


1. Cross tabs: as frequências (percentagens) a 5% não podem ser superiores a 20%,
no total.
2. Statistics
3. Contigency (chi-square): mede a intensidade da associação, ou seja, quanto
mais perto de 1, mais forte e evidente a associação é. O coeficiente de
contigência varia entre 0 e 1.

ANACOR: antes de realizar este teste, tem de se realizar o teste do qui-


quadrado. Variáveis necessitam de ser dependentes . Quanto maior o número
de Pearson, maior a probabilidade de serem dependentes. Sig. maior de 5%, h0
eliminada. Utilizado quando se tem duas variáveis categóricas. Existência de
associações ou oposições. Após a seleção das dimensões, vai-se ao mesmo menu, e
seleciona-se apenas as dimensões necessárias.

SPSS  Analyze  Dimension Reduction  Correspondence Analysis

O número que se aplica em primeiro é consoante o número de variáveis que temos


(colunas e linhas). Número mínimo de colunas ou linhas – 1. Escolhe-se as
dimensões que representam a amostra, ou seja, as dimensões com mais
informação (85% a 91%, na tabela SUMMARY) . Para certificar que escolhemos
o número de dimensões certas, cria-se um gráfico (linha, na tabela summary
seleciona-se o accounted for) e verifica-se a lovalização da inflexão.

Como escolher as categorias que têm


maior associação: point to inertia of
dimension em comparação com “mass”. 1 ou 2
+ –
> mass, boa representação. 1 ou 2 < mass,
má representação. Conforme o score in
dimension (número mais altos, 1
independentemente do sinal), preenche-se a

2
tabela ao lado. Confidence row points, a
correlation tem de ser perto de 0.

Análise Fatorial: técnica de redução de realidade. Não podem ter muitos outliers, a
amostra, nem muito elevados porque se tiver vai tomar conta da análise. Interpretação
subjetiva. Á medida que se aumenta as variáveis, aumenta-se a separação entre elas no
espaço dimensional. Só variáveis numéricas. Exclusão de variáveis: KMO < 0,5, melhor
retirar, KMO > 0,5, mantém-se (quanto mais perto de 1, melhor). Anti-imaged
correlation: 0,5 não é importante para a técnica (diagonal). Bartlett’s test of Sphericity: h0
(não existe correlação), h1 (existe correlação), sig=0, approx. chi square ≠ 0 para
h 1 ser verdadeiro.

Analyze  Dimension Reduction  Factor Analysis

Variables só númericas. Descriptives: Initial


solution, coefficients, significane levels, KMO and
Bartlett’s, Reproduced Anti-Imaged.
Análise de Componentes Principais: identificar algum fator que explique os dados.
Vai criar novas variáveis para caracterizar cada elemento. Temos que escolher os
fatores que expliquem entre 45% a 80% (gráfico e verificar ponto de inflexão) – tem
que ser mais que uma variável. Total Variance Explained: total tem de ser superior a 1. Tabelas
da communalities: ver extraction e verificar quais os melhores. Reproduces correlation: matriz
de correlação, quanto mais próximos de 0 melhor (os resíduos de valor superior a 0,05, tem de
ser menos que 50%). Normalmente são 2 a 3 fatores (verificar component matrix). Rotated
component matrix serve para preencher o quadro, assim como a rotation. Interpretar Fatores:
FAC1_1(X Axis) e FAC2_1 (Y Axis) e as variáveis dependentes como marker e label.
Graphs  Legacy Dialogs  Simple Scatter  Últimas
Análises  Por ambas as retas em 0 (se forem próximo da
média, estão próximas do zero). Pode se relacionar com o
ANACOR.

Analysis  Dimension Reduction  Factor Analysis  Extraction


Method: Principal Components
Correlation Matrix, Unrotated Factor
Solution, Scree Plot, Based on Eigenvalue

Por vezes a associação que queremos identificar não é muito aguda. Para
confirmar é ir ao factor

Rotation: varimax, loading plots e rotated solution


Scores: save as variables, Anderson-Rubin

CATPCA (Análise Categorial de Componentes Principais): (1) numéricas


têm de ser transformadas em categorias. Ver que variáveis estão associadas (mais de
duas variáveis). Número de dimensões selecionadas no início são o número de
variáveis. Escolha de dimensão deve explicar cerca de 80%. Eigenvalue: valor superior a
1. Cronbach’s Alpha: positivo.Ver ponto de inflexão através de eigenvalue . Ver as
dimensões a utilizar e mudar na dimensions in solution. (2) Variance Accounted For:
retirar aquelas que não tiverem a dimensão 1 e 2 muito diferente. Contruir o quadro,
conforme a tabela de Component Loadings. Análise Gráfica (3). Identificação das categorias
que têm maior afinidade (4): tendo em conta as várias tabelas produzidas, fazer um no
quadro, desta vez com as categorias discriminadas.

(1) SPSS  Analyse  Dimension Reduction  Optimal Scaling

1. Some variables are not multiple variables, One Set.


2. Output: Components Loadings, Correlations of Transformed Variables, Variance
Accounted For.
3. Object: Object Points. Loading: Display Component Loadings, All Variables
4. Category: Pôr tudo na Joint Category Plots. Output: Component Loadings, Correlations of
Transformed Variables, Variance Accounted For e Category Quantifications tem de ter as
variáveis
Análise de Correspondência Múltipla: deteção de afinidades de duas variáveis
categóricas caso o processo anterior dê origem a informação redundante. 3 ou mais
variáveis. Número de dimensões inicial é o número existente de categorias – o número
total de variáveis. Mesmo processo que o anterior. As variáveis que contribuem
para cada dimensão são aquelas cuja medida de di scriminação é maior
que a média (Discrimination Measures). Identificação de Categorias com Maior
Afinidade (2): Mesmo processo do anterior.

SPSS  Analyse  Dimension Reduction  Optimal Scaling

1. All variables are multiple nominal, One Set.


2. Output: Discrimination Measures, Correlations of Transformed
Variables, Variance Accounted For. Category Quantifications
and Contributions tem de ter as variáveis

Análise de Regressão Linear: métodos que nos permite conhecer o


comportamento. Variável dependente é quantitativa. 𝑦𝑖 = 𝛼 + 𝛽𝑥 + 𝜀𝑖 . Verificar
dispersão a todas as variáveis independentes (ver se há alguma linha formada pelos
pontos, que indica correlação, reta passa pelos pontos). Tem de se identificar outliers,
valores muito distantes. (1). Análise de correlações (Pearson e Spearman, distribuição
normal e quantitativas, variam entre 1 e -1). (2). Não se quer correlação entre variáveis
independentes. (3) R. Square: r2 = 0, péssimo ajuste, r2 = 1, ajuste perfeito. ANOVA:
h0 = todos os parametros serem 0, para o modelo ser válido tem de se rejeitar a hipótese
nula, sig < 0,05. Test T: presente nos coefficients, sig < 0,05. Ver o peso no cálculo da
variável: dependente  standardized, coefficients Beta. Avaliar os pressupostos: não
pode haver correlação entre variáveis explicativas (coefficients  collinearity
statistics. O valor de VIF tem de ser inferiro a 10), normalidade dos resíduos
(standardized residues, explore  plots  shapiro-wilk ou smirnov),
homocedasticidade (variação dos resíduos deve ser constante, avaliação no gráfico
de dispersão – disposto de forma aleatória num scatter plot).

(1) SPSS  Gráficos  Legacy  Scatter/Dot  Simple

(2) SPSS  Analyze  Correlate (selecionar todas, spearman ou


pearson)  Bivariate

Para ser fortes, tem de se


ver se o correlation
oefficient é perto de 1 ou -1
(3) SPSS  Analyze  Regression  Linear

Method: stepwise Save: unstandardized, Statistics: estimates,


standardized (em ambos), confidence, model fit, R
studentized, mean, individual Squared, descriptives,
collinearity, Durbin-Watson,
Casewise
Histogram: normal probability,
plots y  zRESID; x  zPRED

Análise de Regressão Logística: alternativa à análise discriminante .


Variável dependente é categorial e as variáveis independentes são quantitativas. Prever
onde pertence um caso com certas variáveis quantitativas. Não precisa de se
verificar a normalidade e variabilidade idêntica entre os grupos . Necessário
ver multicolinearidade. Verificar outliers (boxplot). Análise da qualidade do ajuste: R 2 de
Cox & Shell e R 2 de Nagelkerke, quanto mais perto de 1 melhor. Validação global do
modelo: teste do rácio verosimilhanças (Omnibus Tests of Model Coefficients ),
assume que todos os parâmetros são iguais a 0, tem de ser rejeitada a hipótese
nula. Validação dos parâmetros do modelo: Teste de Wald, assume em causa é igual a
0, só tem significado os parâmetro em que se rejeite a hipótese nula (a
constante pode não rejeitar a hipótese, no entanto permanece no modelo apesar de não
ter significado estatístico). Fiabilidade do Modelo: Teste de Homer e Lemeshow (assume-
se que o modelo se ajusta aos dados, logo tem de se aceitar a hipótese nula ) e
curva de ROC (2) (h0 a aréa da curva ROC < 0,5; h1, a área da curva ROC > 0,5; area
under the Curve, tem de se rejeitar a hipótese nula para ter um ganho no poder
discriminante da variável dependente). Identificar outlier (3). Identificação de
Observações Influentes (4): precisa-se de formar outra variável (Delta_DEV),
nomeadamente COMPUTE VARIABLE SRE_1 ao quadrado e depois avaliá-la num
gráfico, também se pode ver na estatística de Cook. REMOVER OS CASOS QUE SÃO
OUTLIERS E MUITO SUPERIORES A 1 NA ESTATÍSTICA DE COOK. Quando terminado, excrever
os dados numa linha extra e correr novamente o modelo. Resultados encontram-se
em PRE_2 e PGR_2.

SPSS  Analyze  Regression  Binary Logistic

Method: Foward LR

Options: Classification Points, Hosmer-


Save: Probabilites, Group
Lemeshow goodness-of-fit, Casewise Listing of
Membership, Cook’s,
Residuals, Outliers Outside, Correlations of
Studentized, Include the
Estimates, CI for Exp, At Each Step, Include
Covariance Matrix
Constant in Model.
(2) SPSS  Analyze  ROC Curve

Test Variable: Predicted Probability (PRE_1)


State Variable: Variável Dependente.
Display: ROC Curve, With Diagonal Reference
Line, Standard Error and Confidence Interval

(3) SPSS  Graphs  Legacy Dialogs  Scatter/Dot  Simple Scatter

Y Axis: Standard Residual (SRE_1)


X Axis: Predicted Probability (PRE_1)

(4) SPSS  Graphs  Legacy Dialogs  Scatter/Dot  Simple Scatter

Y Axis: Delta_Dev
X Axis: Predicted Probability (PRE_1)
Markers: Analog of Cook’s Influence Statistics

Análise de Regressão Categórica: Parecido à análise de Regressão Linear.


Variáveis independentes qualitativas. Não pode haver multicolinearidade (verificar
tabelas de contigência, tolerance na tabela de correlations and tolerance tem de ser alta,
perto de 1). Variáveis quantitativas devem ser categorizadas . A amostra deve
ser maior que o número de variáveis independentes. Coeficiente de determinação
ajustado: mais próximo de 1, maior a qualidade de ajusto. Teste F: hipótese nula tem de
ser rejeitada para validação do modelo (validação dos coeficientes). Verificar importante
(peso da variável na explicação). RETIRAR VARIÁVEIS QUE NÃO CUMPREM.
Exemplo de equação: QAspecto Físico = BetaExercício x QExercício + BetaAltura x
QAltura + BetaPaís x QPaís + BetaSexo x Qsexo. Valor equivale ao mais perto da
quantificação (no final).

SPSS  Analyze  Regression  Optimal Scalling

Output: Multiple R, ANOVA, Coefficients,


Correlations of Original Variables, Correlations
of Transformed Variables

SPSS  Analyze  Regression  Optimal Scalling


Mesmo que o anterior. Passar as
variáveis importantes para Category
Quantification. Após a validação do
modelo. Serve para previsão.
Análise Discriminante: variável dependente é categorizada (tem de ter pelo
menos 20 casos em cada grupo) e as variáveis independentes são quantitativas
(cada variável tem de ter mais que 5 casos ) – verifica-se no group statistics.
Verificar correlação entre média e desvio de padrão – group statistics also. Verificar
outliers com boxplot (variável independente em função da variável categorial).
Distribuição normal nas variáveis independentes (fazer todo o processo do
teste da normalidade). Teste de Box’s M: variabilidade idêntica entre os grupos, tem de se
aceitar a hipótese nula. Inexistência de Multicolinearidade: pooled within-groups
matrices não devem muito elevado e tolerance (variables in analysis) deve ser
superior a 0,8. Teste Wilk’s Lambda: funções discriminantes e validação global do
modelo, escolhe as variáveis que mais explicam a dependente, indicando a percentagem,
na tabela com o qui-quadrado tem que se rejeitar a hipótese nula (nenhuma das
funções é relevante para discriminar as categorias variável grupo) e na tabela das
percentagens tem também de se rejeitar a hipótese nula (a média dos grupos são
idênticas) – FUNÇÃO TEM PODER DISCRIMINANTE SIGNIFICATIVO .
EigenValues: explicação das funções criadas. Teste F: validação do modelo. Test of
Equality of Group Means: rejeitar a hipótese nula (A média de uma variável explicativa é
igual em todos os grupos), para saber que tem mais poder discriminante. Struture Matrix:
importância da variáveis independentes na função, números altos significam correlação
com as funções criadas (0,3 já é considerado alto enquanto 0,1 não é). Canonical
Discriminant Functions: centróides próximo não são bons para distinguir, centróides
longe são ótimos (fiabilidade do modelo). Classification Results: verificar alinea c, por
baixo da tabela. Como prever: introduzir dados conhecidos numa linha extra, ir a
save do processo descrito abaixo e selecionar “PREDICTED GROUP MEMBERSHIP”,
“DISCRIMINANT SCORES” e “PROBABILITIES OF GROUP MEMBERSHIP”. Resultados da
previsão irão encontrar-se em DIS_1, DIS1_2, DIS2_2, e DIS3_2, na linha selecionada.

SPSS  Analyze  Classify  Discriminant

Method: Wilk’s Lambda, Statistics: Means, Univariate ANOVAs, Box’s M,


Summary of Steps, Use F Fisher’s, Unstandardized, Within-groups
value, F for pairwise distances. Correlation

Classification: Compute from Group Sizes, Within Groups,


Summary Table, Leave-one-out Classification, Combined
Groups, Separate Groups, Territorial Map

Você também pode gostar