Escolar Documentos
Profissional Documentos
Cultura Documentos
UNIVARIADA E BIVARIADA
ÍNDICE
1.3 Frequências 6
1.4 Medidas descritivas 7
1.4.1 Medidas de localização 8
ÍNDICE DE FIGURAS
Figura 1: Distribuição dos leitores segundo o semanário da sua preferência 3
Figura 2: Distribuições das respostas ao atributo lê-se facilmente 3
Figura 3: Distribuição do número de semanários lidos por mês 3
Figura 4: Distribuição do número de semanários lidos por mês 4
Figura 5: Distribuição do número de semanários lidos por mês 5
Figura 6: Nível médio de concordância sobre alguns atributos do jornal 6
Figura 7: Principais técnicas da análise descritiva bivariada 15
Figura 8: Distribuição do semanário preferido por sexo 17
Figura 9: Distribuição do semanário preferido por sexo 18
Figura 10: Relação entre o semanário preferido e o sexo 19
Figura 11: Distribuição do semanário preferido por sexo 20
Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo 22
Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário
preferido 24
Figura 14: Tempo médio de leitura do semanário por semanário preferido 25
Figura 15: Distribuição do tempo de leitura do semanário por semanário preferido 26
Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y) 27
Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura semanal
dos diários 29
Figura 18: Valores de referência para medidas de correlação 33
ÍNDICE DE TABELAS
Tabela 1: Alguns procedimentos de análise descritiva univariada 1
Tabela 2: Distribuição do tempo de leitura do semanário preferido, em minutos 7
Tabela 3: Relação entre o semanário preferido e o sexo 30
Tabela 4: Distribuição do semanário preferido por sexo 32
Tabela 5: Distribuição do tempo de leitura do semanário por semanário preferido 33
Análise descritiva
“Estatística é a ciência que se ocupa da obtenção da informação (amostragem), seu tratamento inicial
(ordenação, cálculo de características amostrais, agrupamento em classes, representações gráficas – em
suma, estatística descritiva e análise exploratória de dados) com a finalidade de, através de resultados
probabilísticos adequados, inferir de uma amostra para a população. (). Por outras palavras, é um
instrumento de leitura da informação e da sua transformação em Conhecimento.”
(Dinis Pestana e Sílvio Velosa, 2002)
Para uma análise univariada, pretende-se estudar o comportamento de uma variável a partir do
resumo dos dados em gráficos, medidas descritivas e/ou tabelas de frequência.
É necessário identificarmos a natureza das variáveis de que dispomos para trabalhar e, deste
modo, escolher as análises adequadas.
⎧ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Moda
⎪ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Mediana
𝑳𝒐𝒄𝒂𝒍𝒊𝒛𝒂çã𝒐 Média; Média aparada
Tabelas de frequências ⎨ Quantis
⎧Discretas ⎪ 𝑇𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎 Mínimo
⎪
⎪
Gráficos de barras, 𝑏𝑜𝑥𝑝𝑙𝑜𝑡𝑠, … ⎩𝑛ã𝑜 𝑐𝑒𝑛𝑡𝑟𝑎𝑙 Máximo
Quantitativas
Tabelas de frequências Intervalo de variação
⎨
⎪ (com intervalos contínuos) Intervalo interquartílico
⎪ Contínuas Dispersão
Histograma Desvio padrão
⎩
𝐵𝑜𝑥𝑝𝑙𝑜𝑡 Coeficiente de variação
Assimetria{ 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
Achatamento {𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
Notas: (1) Um grupo de variáveis qualitativas ordinais medidas em escala ordinal tipo likert podem ter tratamento quantitativo; (2) As variáveis
dicotómicas têm tratamento qualitativo nominal.
Qualitativas – se registam qualidades, i.e., se não estão expressas em números, ou estando não as
quantificam:
Qualitativas nominais se as qualidades são registadas sem ordem, i. e., são meras
categorias: género, cor dos olhos, etc.
Qualitativas ordinais se as qualidades são registadas com ordem: habilitações académicas,
escalões etários, etc.
Quantitativas – registam quantidades: altura, idade, nº de filhos por agregado familiar, etc.
Variáveis quantitativas discretas – se o número de valores que a variável pode assumir for
finito ou infinito numerável (assume sempre valores inteiros, mesmo que não seja possível
definir-se um máximo)
Variáveis quantitativas contínuas – se o número de valores que a variável pode assumir
for infinito não numerável (quando não se pode contá-los porque entre dois valores existe
sempre um terceiro).
Como decidir entre observações de variáveis discretas e de variáveis contínuas? São contagens?
São medições? Algumas observações de variáveis de natureza discretas são tratadas como dados
contínuos e o inverso também pode acontecer.
Dados de variáveis qualitativas nominais são melhor representados por gráficos circulares
(pie) em que a soma das partes é 100%.
Dados de variáveis qualitativas ordinais ou de quantitativas discretas são melhor
representados por gráficos de barras.
Dados de variáveis quantitativas contínuas são melhor representados por histogramas.
As medidas descritivas podem também ser apresentadas graficamente. É o caso de perfis de médias
ou de medianas (gráficos de linhas), diagrama de extremos e quartis, etc.
1
Os gráficos devem ter títulos, indicando-se claramente qual a caraterística/variável em estudo.
Versão a) Versão b)
Versão a) Versão b)
Figura 2: Distribuições das respostas ao atributo lê-se facilmente
Para dados contínuos, o histograma é adequado para representar as frequências por classes.
Quantos intervalos (classes) se devem considerar?
Regra para o cálculo do número de classes (k):
𝐾 = 5 para 𝑛 < 25 𝐾 ≈ √𝑛 para 𝑛 ≥ 25
Classes definidas por conveniência, por exemplo, de acordo com outros estudos, ou de
acordo com os dados agregados disponíveis de estatísticas oficiais
Usar o BOM SENSO!
Quando se pretender definir classes de diferentes amplitudes, o histograma deixa de ser adequado.
Neste caso, recodifica-se a variável original em escalões, passando a ser tratada como qualitativa
ordinal.
Este gráfico, tal como está, não deve constar de um relatório uma vez que estão identificados os
casos (id) que são outliers (32 e 68).
Outliers
Máximo = 15
Q3=9 Intervalo de
variação
Intervalo
interquartílico
Q1= 5
Mínimo = 2
Este gráfico é muito útil em análise de dados uma vez que contempla muita informação, incluindo
a identificação de outliers. Outliers2 são valores anómalos e, por isso mesmo, afastam-se do padrão
considerado (entre Q3 e Q1), sendo classificados em moderados e severos:
O fim dos “bigodes” não coincide necessariamente com o mínimo e máximo se existirem outliers.
Output:_____________________________________________________________________
Extreme Values
Case Number Value
Número de Highest 1 32 16
semanários 2 68 16
lidos por 3 33 15
mês
4 34 15
5 69 14a
Lowest 1 52 2
2 14 2
3 90 3
4 89 3
5 67 3b
2
Há autores que definem os outliers como desvios face à média de um, ... , desvios padrão. Por exemplo: 𝑋 ± 3 𝑠′.
©ISCTE-Instituto Universitário de Lisboa 5
Análise descritiva
a. Only a partial list of cases with the value 14 are shown in the table
of upper extremes.
b. Only a partial list of cases with the value 3 are shown in the table
of lower extremes.
Note-se que no output estão identificados alguns dos valores extremos e os outliers sobrepostos.
Os casos 32 e 68 são outliers.
Vantagem - Temos uma ideia da localização dos valores observados, da sua dispersão, e do grau
de assimetria da distribuição. No exemplo dado, a distribuição do Número de semanários lidos por
mês é assimétrica; e, como a mediana está mais próxima do Q1, caraterizamos esta distribuição
como assimétrica positiva.
1.3 Frequências
Os valores que uma variável pode assumir podem ser representados em frequências:
Quando a variável é qualitativa nominal, não se calculam as frequências acumuladas por estas
pressuporem uma ordenação dos valores da variável. Note-se ainda que as frequências relativas
usualmente são apresentadas em percentagens.
As medidas descritivas (ou de síntese) resumem os valores da variável (dos dados) num só valor e
estão classificadas em diversos tipos: i) localização de tendência central; ii) localização de
tendência não central; iii) dispersão e concentração; iv) assimetria; e v) achatamento. No entanto,
para descrever corretamente o comportamento duma variável são necessárias sempre mais do que
uma medida, sendo fundamental apresentar, pelo menos, uma de localização de tendência central
e uma de dispersão.
No SPSS Statistics existem vários comandos que permitem calcular as principais medidas
descritivas. Por exemplo:
1) Variáveis qualitativas nominais MODA (o valor que mais vezes foi observado)
MODA: pode ser calculada qualquer que seja o tipo de variável. A moda representa a
modalidade da variável que ocorre mais vezes.
MEDIANA: pode ser também calculada para variáveis quantitativas. É a medida de localização
preferida para distribuições fortemente assimétricas. Para ser calculada, os valores da variável
têm de ser ordenados.
Exemplo simplificado da base de dados:
𝑋 𝐹 % % ac
1 2 9,09 9,09
2 2 9,09 18,18
3 3 13,64 31,82
4 4 18,18 50,00
5 4 18,18 68,18
6 3 13,64 81,82
7 2 9,09 90,91
8 2 9,09 100,00
n 22
Output: ______________________________________________________________________________
1,1,2,2,3,3,3,4,4,4,4,5,5,5,5,6,6,6,7,7,8,8
Interpretação: metade dos leitores leem, no máximo, 4,5 diários por semana.
Interpretação: se todos os leitores lessem semanalmente o mesmo número de diários, esse valor seria
de 4,5.
Outputs:___________________________________________________________________
Descriptives
Statistic Std. Error
Tempo de leitura do Mean 88,70 4,512
semanário (minutos) 5% Trimmed Mean 86,56
Median 75,00
Variance 2035,667
Std. Deviation 45,118
Minimum 30
Maximum 195
Range 165
Interquartile Range 67,50
Skewness ,708 ,241
Kurtosis -,455 ,478
Percentiles
Percentiles
5 10 25 50 75 90 95
Weighted Tempo de leitura do
30,00 45,00 52,50 75,00 120,00 163,50 180,00
Average(Definition 1) semanário (minutos)
Tukey's Hinges Tempo de leitura do
55,00 75,00 120,00
semanário (minutos)
Como se pode ver, dependendo do critério utilizado (do comando usado no SPSS Statistics),
assim os valores dos percentis podem ser diferentes. Se utilizarmos o critério da Média
ponderada, o P25 = 52,5 min; se for utilizado o critério de Tukey, esse valor passa a ser igual a
55 min! Se acedermos a estas medidas via Explore, é utilizado o critério da Média ponderada,
mas, se acedermos a Custom Tables, já é utilizado o critério de Tukey.
Interpretação: Q3= 120 min, i. e., 75% dos leitores inquiridos demoram, no máximo, 120 minutos a ler o
semanário preferido. De outra forma, 25% dos leitores demoram, no mínimo, 120 minutos
a ler o semanário preferido.
As medidas de dispersão permitem-nos ter uma ideia da variabilidade dos valores da variável.
∑ ( ) ∑ ( ) ∑ ( )
1. Variância3 ; ;
É uma medida de dispersão que avalia o quadrado dos afastamentos em relação à média das
observações. É expressa no quadrado das unidades da variável, o que a torna mais difícil de
interpretar;
2. Desvio-padrão +√𝑉𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
Sendo a raiz quadrada positiva da variância é expressa nas mesmas unidades que a variável em
estudo;
3. Intervalo de variação (𝑉𝑎𝑙𝑜𝑟 á − 𝑉𝑎𝑙𝑜𝑟 í )
Corresponde à amplitude definida pelo valor resultante da diferença entre o valor máximo e o
valor mínimo;
4. Intervalo interquartílico (𝑄 − 𝑄 )
Corresponde à “caixa” da caixa-de-bigodes e indica-nos onde se encontram os 50% de
observações “centrais”.
A variância e o desvio-padrão só podem ser calculados para variáveis quantitativas porque medem
o afastamento em relação à média.
Permite avaliar a dispersão de uma distribuição, ou comparar a dispersão entre duas ou mais
distribuições, e permite ainda medir a representatividade da média. É usual aceitar-se que, se este
coeficiente for superior a 50%, a média deixa de ser representativa. Neste caso, deve-se preferir-
se a mediana ou a média aparada.
Output: ____________________________________________________________________
3∑ (𝑋 − 𝑋) corresponde à variação total relativamente à média (𝑇𝑜𝑡𝑎𝑙 𝑠𝑢𝑚 𝑜𝑓 𝑠𝑞𝑢𝑎𝑟𝑒𝑠 = 𝑇𝑆𝑆) e dividida pelo
número de observações (ou 𝑛 − 1) corresponde à variância que mais não é do que variação média.
Interpretações:
(1) o desvio do tempo de leitura do semanário preferido face à sua média (88,38 min) é, em termos
médios, de 45,237 minutos.
(2) A diferença entre a duração do tempo de leitura mais elevada e a mais baixa é de 165 minutos.
(3) A amplitude registada entre os tempos de leitura no grupo de respostas central (75%-25%) é
de 70 minutos, isto é, excluindo os 25% dos leitores com tempos de leitura mais baixos e os
25% com tempos mais altos, a variação máxima dos tempos de leitura dos restantes leitores
(50%) é de 70 minutos.
,
(4) 𝐶𝑣 = , × 100 ≈ 51,18% o peso do desvio padrão em relação à média é de 51,18%, o
que mostra ser uma dispersão moderadamente dispersa.
A comparação das medidas de tendência central permite-nos avaliar o enviesamento dos dados.
Em distribuições unimodais:
∑ ( ) ∑ ( )
𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠 = ( )( )
𝑆′ com 𝑀 = e 𝑆′ =
Assimétrica positiva
Assimétrica negativa
Simétrica
Output: ___________________________________________________________________________
0,95).
∑𝒏
𝒊 𝟏(𝑿𝒊 𝑿)
𝟒 ∑ ( )
com 𝑀 𝟒 = e 𝑆′ =
𝒏
(+) Leptokurtic
(0) Mesokurtic
(Normal)
(-) Platykurtic
Output: ___________________________________________________________________________
Numa análise descritiva bivariada pretende-se descrever a relação entre duas características, isto
é, perceber de que forma a distribuição de uma delas se comporta perante a alteração na
distribuição da outra. Importa também referir que as relações entre variáveis, que se pretendem
aqui identificar, estabelecem ou não relações de dependência. As relações de dependência, em que
há uma variável que é explicada pela outra (relação causa-efeito), são definidas pelas teorias.
Tal como na análise descritiva univariada, as técnicas a utilizar dependem da natureza das variáveis
em estudo, havendo sempre a possibilidade de se recorrer a gráficos, tabelas e a medidas de
associação (entre as quais se encontram as de correlação). A Figura 7 mostra as diferentes técnicas
possíveis de serem utilizadas numa análise descritiva bivariada.
Circular em painel
Se o gráfico circular é adequado para representar graficamente uma variável qualitativa nominal,
continua a ser adequado para representar graficamente duas variáveis qualitativas nominais.
No SPSS Statistics:
Após algumas formatações, e de acordo com o que já foi referido no estudo da análise descritiva
univariada, uma possível solução é apresentada na Figura 8.
Interpretação: a percentagem de leitores que preferem o Expresso é maioritária no grupo dos leitores do
sexo masculino (54,5%), quando comparada com o grupo do sexo feminino (41,2%). Em
contraste, a % de leitores que preferem o Sol é bastante mais relevante no grupo de leitores
do sexo feminino (44,1%), já que apenas 15,2% dos leitores do sexo masculino preferem
este semanário. Deste modo, identificam-se algumas diferenças nas preferências entre os
dois sexos: enquanto que no grupo de leitores do sexo masculino há uma preferência clara
pelo Expresso, já no grupo das leitoras, essa preferência, já não sendo tão clara, vai para o
Sol, seguido de perto pelo Expresso (41,2%). Assim, conclui-se haver uma relação entre
estas características.
Sempre que o registo de uma categoria (ou barra de uma cor) dominante num grupo corresponder
a um registo minoritário da categoria (barra da mesma cor) no outro grupo (ou num outro grupo),
diz-se que as variáveis estão relacionadas a uma inversão dos pesos de uma categoria em cada
um dos grupos da outra variável.
Analisam-se dois casos, um com a percentagem do total, outro com a percentagem segundo o sexo.
Interpretação: a Figura 10 evidencia que o grupo de leitores mais expressivo corresponde aos leitores do
sexo masculino e que preferem o Expresso (36%), sendo o menos expressivo, com uma
percentagem de apenas 5%, o grupo de leitores do sexo feminino e que preferem o
Regional.
Histograma
No SPSS Statistics só se conseguem fazer histogramas com classes de igual amplitude e, em alguns
casos, apresentar as frequências absolutas (contagens de leitores), situações estas que restringem
a utilidade destes gráficos para caracterizar a relação entre duas variáveis, uma quantitativa
contínua e outra qualitativa. Apresentam-se dois casos.
Após algumas formatações, diferentes das apresentadas nas caixas de diálogo anteriores, obtém-
-se a Figura 12.
Figura 12: Distribuição do tempo de leitura do semanário (em minutos) por sexo
Interpretação: os tempos de leitura do semanário preferido são superiores no grupo dos leitores do sexo
masculino por não haver registos de leitores do sexo feminino a despender tempos de leitura
nos intervalos 160 - 180 minutos; por outro lado, as barras associadas ao tempo de leitura
do semanário preferido no grupo dos leitores do sexo masculino, “mancha verde”, é sempre
superior às barras no outro grupo, “mancha azul”, por haver mais registos de leitores nesse
grupo; por exemplo, há 22 leitores do sexo masculino que demoram a ler mensalmente
entre 40 – 60 minutos contra 13 leitoras. Mas, há mais leitores (66) do que leitoras (34).
PAINEL EM COLUNA:
Figura 13: Distribuição do Número de semanários lidos por mês (em média) por Semanário preferido
No SPSS Statistics:
Interpretação: apesar de se registar o mesmo valor mínimo (30 minutos) para o tempo de leitura dos leitores
que preferem qualquer um dos três semanários, os tempos de leitura do Expresso para os
quartis e valor máximo são sempre superiores aos dos outros semanários. Comparando-se os
tempos de leitura registados para o Regional e o Sol, pode-se adiantar que, se 25% dos
respondentes demoram, no máximo, cerca de 45 minutos a ler o Regional ou o Sol (o 𝑄1 =
45 minutos é igual em ambos os semanários), já metade dos leitores que preferem o
Regional, levam, no máximo, 60 minutos a lê-lo, correspondem a 75% dos leitores que
preferem o Sol para o mesmo tempo de leitura (ou seja, 𝑄 ; ≡𝑄 ; ). Concluindo,
é visível que os tempos de leitura para o Expresso se afastam dos tempos de leitura registados
para os outros dois semanários (são sempre superiores), esperando-se por isso haver relação
entre estas duas características, embora não muito forte.
O gráfico de dispersão (Scatter Dot) é adequado para representar relações, em particular relações
lineares, entre duas variáveis quantitativas. Se existir uma forte relação linear (positiva ou
negativa) entre as variáveis, os pares de valores posicionam-se bastante próximos de uma reta
traçada à mão (ou de uma reta ajustada); se, pelo contrário se afastam dessa reta, visualiza-se que
a relação linear entra as variáveis é fraca ou mesmo inexistente. A Figura 16 apresenta diferentes
tipos de relação e uma situação em que não existe qualquer relação linear ou não linear (c).
(a) Relação linear positiva e (b) Relação linear negativa e (c) Ausência de relação (d) Relação, mas não linear
forte moderada
Fonte: Doane e Seward (2008: 491)
Figura 16: Possíveis situações no estudo da relação entre duas variáveis quantitativas (X e Y)
No SPSS Statistics4:
4
A partir do tempo de leitura do semanário preferido por mês constrói-se uma variável para representar o tempo de
leitura do semanário preferido por semana. Para o efeito recorre-se no SPSS Statistics ao comando Transform,
Compute variable e insere-se a expressão que permite dividir o tempo mensal por quatro semanas (Tempo de leitura
do semanário preferido por mês/4).
©ISCTE-Instituto Universitário de Lisboa 27
Análise descritiva
Após algumas formatações, a Figura 17 apresenta a relação linear positiva entre as duas
características.
Reta ajustada
Figura 17: Relação entre o tempo de leitura do semanário preferido e o tempo de leitura semanal dos
diários
Interpretação: a relação linear entre os tempos de leitura dos dois tipos de jornais (quanto à periodicidade)
evidencia ser forte e positiva, uma vez que os círculos correspondentes aos pares de valores
estão bastante próximos da reta traçada que apresenta declive positivo, ou seja., ambas as
variáveis variam no mesmo sentido: quando o tempo de leitura dos diários cresce, o tempo
de leitura dos semanários também cresce e de forma muito clara.
As tabelas estatísticas apresentam maior precisão nos resultados relativos às variáveis em estudo.
Se as variáveis forem qualitativas, as tabelas adequadas são as tabelas de contingência (Crosstabs);
se uma delas for quantitativa e a outra qualitativa, a tabela de (comparação de) medidas descritivas
(via Tables, Custom Tables ou via Explore) é a tabela adequada. No caso de duas variáveis
quantitativas, não se justifica a realização de uma tabela, dada a sua dimensão e a muito reduzida
interpretação que permite.
Interpretação: identifica-se uma potencial relação entre o semanário preferido e o sexo uma vez que dos
66 leitores que são do sexo masculino, 36 preferem o Expresso (54,5%), enquanto que, dos
34 leitores do sexo feminino, 44,1% (𝑛 = 5) preferem o Sol e 41,2% (𝑛 = 14) preferem o
Expresso. De outra forma, verificam-se algumas alterações nas preferências do semanário
quando se passa da análise dos leitores para a análise das leitoras.
Mas podem também ser obtidas com o comando Analyze Tables Custom Tables:
São mais adequadas para caracterizar a relação entre uma variável quantitativa e uma qualitativa,
em que se calculam as medidas descritivas para a quantitativa em cada grupo definido pela
qualitativa. No SPSS Statistics:
Analyze Tables Custom tables
Interpretação: a média do tempo de leitura do semanário Expresso é maior (118,2 minutos) do que as
médias dos tempos de leitura dos outros dois semanários (Regional = 61,4 minutos e Sol =
57 minutos); os desvios padrão, quando comparados com as respetivas médias, são menos
de metade em todos estes semanários, o que leva a concluir-se que a dispersão do tempo
de leitura dos semanários preferidos, Expresso, Regional e Sol, em torno da sua média, é
fraca. Assim, conclui-se pela existência de uma relação moderada entre o tempo de leitura
e o semanário preferido, já que os leitores que preferem o Expresso se diferenciam dos
leitores que preferem os outros dois semanários, embora estes dois grupos de leitores não
se diferenciam muito em termos do tempo médio de leitura.
São indicadores que pretendem medir a intensidade da relação e em algumas medidas também o
sentido (positivo ou negativo) da relação entre duas variáveis. Quando pelo menos uma variável é
qualitativa nominal fala-se em associação, quando ambas são quantitativas ou qualitativas ordinais
fala-se em correlação5, e nestes casos os indicadores dão a intensidade e o sentido da relação.
Não havendo um consenso, alguns autores apontam valores de referência para a interpretação dos
coeficientes de associação. No entanto, é consensual que valores próximos de 0 traduzem relações
fracas, valores em torno de 0,5 traduzem relações moderadas e que valores próximos de 1
representam relações fortes. No caso dos coeficientes de correlação, valores negativos traduzem
relações negativas e valores positivos relações positivas. A Figura 16 ilustra os tipos de correlações
e a Figura 18 evidencia diferentes intensidades (e sentidos) das relações.
5
No entanto, podemos generalizar o termo associação para qualquer tipo de relação entre quaisquer dois tipos de
variáveis.
©ISCTE-Instituto Universitário de Lisboa 33
Análise descritiva
Por fim, importa referir que as medidas de associação, em geral e per si, não permitem descrever
a relação entre as duas características, devendo ser apresentadas como um complemento à análise
dos gráficos e/ou tabelas.
2. Coeficiente Eta () – deve ser utilizado quando se tem uma variável quantitativa e uma
variável qualitativa nominal (ou tratada como tal), em que uma delas assume o estatuto de
variável dependente e a outra o de variável independente. O Eta varia entre 0 e 1 e tem a
mesma interpretação que o V de Cramer. Sempre que não seja muito evidente qual das duas
variáveis é a independente deve-se evitar esta medida.
Importa realçar que é usual calcular e interpretar o Eta2. Este indicador traduz a proporção (ou
a percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.
6
Quando ambas as variáveis nominais são dicotómicas, a medida de associação Phi é a adequada.
7
Se forem duas variáveis quantitativas e se não existir uma relação de tipo linear entre elas não se deverá calcular o
coeficiente R de Pearson.
Tal como no caso do Eta, existindo uma relação de causa-efeito entre as duas variáveis em
estudo, é usual calcular e interpretar o R2. Este indicador traduz a proporção (ou a
percentagem, quando multiplicado por 100) da variação da variável dependente que é
explicada pela variável independente.
As medidas de associação / correlação podem ser calculadas em três comandos distintos, dependo
a sua seleção do tipo de variáveis em estudo. Assim, têm-se as seguintes possibilidades:
Output:______________________________________________________________________________
Symmetric Measures
Approximate
Value Significance
Nominal by Nominal Phi ,324 ,005
Cramer's V ,324 ,005
N of Valid Cases 100
Interpretação: a relação entre as variáveis semanário preferido e sexo é de intensidade fraca a moderada
(0,324).
Outup:____________________________________________________________________________
Correlations
Lê-se Leitura
facilmente agradável
Spearman's Lê-se Correlation Coefficient 1,000 ,582
rho facilmente Sig. (2-tailed) . ,000
N 100 100
Leitura Correlation Coefficient ,582 1,000
agradável Sig. (2-tailed) ,000 .
N 100 100
Intrepretação: a relação entre as variáveis lê-se facilmente e leitura agradável é de intensidade moderada
e positiva (0,582).
Outputs: __________________________________________________________________________
Measures of Association
Eta
Eta Squared
Tempo de leitura do
semanário por mês ,163 ,026
(minutos) * sexo
Interpretação: a relação entre o tempo de leitura do semanário por mês e o sexo é de intensidade baixa
(0,163). Ou seja, apenas 2,6% da variação do tempo de leitura do semanário preferido é
explicada pelo sexo (𝐸𝑡𝑎 = 0,026).
Output: _____________________________________________________________________
Correlations
Tempo de leitura Tempo de leitura
semanal dos dos diários por
semanários semana
Tempo de leitura Pearson Correlation 1 ,987
semanal dos semanários Sig. (2-tailed) ,000
N 100 98
Tempo de leitura dos Pearson Correlation ,987 1
diários por semana Sig. (2-tailed) ,000
N 98 98
Interpretação: a relação linear entre os tempos de leitura semanal dos semanários e dos diários é quase
perfeita, i. e., é muito forte (0,987) e positiva, o que significa que ambas as variáveis variam
no mesmo sentido.
Compute:
Com o comando Transform é possível operar diversas alterações na tabela de dados, como seja a
construção de novas variáveis com base nas que já existem. Uma possibilidade é a construção de
novos indicadores, por exemplo, índices, baseadas na informação de variáveis já existentes e que
se efectuam na opção Compute.
Exemplo:
Pode ser interessante construir a partir de duas variáveis originais associadas aos atrtibutos que os jornais
devem deter, Lê-se facilmente e Leitura agradável, construir-se uma nova variável latente, Leitura
Aprazível.
A construção desta nova variáve latente só é possível se duas condições prévias estiverem
validadas: se (1) as modalidades da escala ordinal de concordância estiverem todas ou quase todas
preenchidas e se (2) o coeficiente de 𝐴𝑙𝑝ℎ𝑎 𝑑𝑒 𝐶𝑟𝑜𝑛𝑏𝑎𝑐ℎ ≥ 0,7. O valor do Alpha deverá ser
próximo de 1 para indicar uma forte consistência dos indicadores, de forma a que possam ser
tratados como uma só variável. Este último coeficiente dá-nos a conhecer a consistência interna
das respostas dadas pelos respondentes: se umas forem num sentido e as restantes forem em sentido
oposto, o coeficiente será fraco e dizemos que os respondentes não foram consistentes nas suas
respostas. No caso contrário, pode ser construída uma nova variável cujos valores sejam a média
das respostas atribuídas às questões de concordância. Neste caso é possível recorrer à função média
(Mean) disponível entre as inúmeras funções de cálculo. Deve seguir-se criteriosamente as
indicações dadas para a construção da expressão numérica.
Frequency Frequency
Valid Discordo completamente 2 Valid Discordo completamente 4
Discordo 17 Discordo 7
Nao concordo nem discordo 35 Nao concordo nem discordo 25
Concordo 28 Concordo 48
Concordo completamente 18 Concordo completamente 16
Total 100 Total 100
Output: ___________________________________________________________________
Reliability Statistics
Cronbach's Alpha N of Items
,768 2
Logo, pode passar-se à construção da Leitura Aprazível, utilizando para isso, os comandos
Transforme, Compute
O campo para Target Variable deve ser preenchido com o nome da nova variável que deverá
constar na base de dados. Pode ainda definir-se nesta caixa o tipo e a etiqueta da variável.
Executando estes comandos surge a nova variável no final da tabela de dados.
Cumulative
Frequency Percent Percent
Valid 1,00 1 1,0 1,0
1,50 4 4,0 5,0
2,00 3 3,0 8,0
2,50 10 10,0 18,0
3,00 12 12,0 30,0
3,50 31 31,0 61,0
4,00 20 20,0 81,0
4,50 7 7,0 88,0
5,00 12 12,0 100,0
Total 100 100,0
Recodificação
A recodificação no SPSS efectua-se através das opções Transform, Recode. Pode ser importante
alterar a codificação de uma dada variável, e por isso, proceder à substituição de códigos, mas
criando uma variável nova. Para tal executamos Recode into Different Variables.
Por exemplo, podem ser criados escalões etários a partir da idade. Os escalões pretendidos são:
Deve salientar-se que as alterações efectuadas substituem o cenário anterior, o SPSS não guarda a
variável com as codificações anteriores.
No conjunto de opções que surgem no lado esquerdo é possível introduzir os valores da variável
de origem que se pretende recodificar, no lado direito da janela atribuem-se os novos valores.
Analisemos as opções em cada situação.
Old value:
All other values: permite a recodificação de todos os outros valores não mencionados
anteriormente.
New value:
System-missing: quando é conveniente que algum valor (ou intervalo de valores) passe para não
resposta.
Copy old values: para manter alguns valores da variável inicial.
A variável nova será colocada no final da tabela de dados. Para confirmar a recodificação deverá
ser realizada uma tabela de frequências para a antiga e para a nova variével. De seguida é
necessário configurar os values da nova variável recodificada, utilizando a folha de variable view
da base de dados.
Recodificação automática
O SPSS permite uma recodificação automática de variáveis. A mesma é feita por ordem crescente
ou decrescente. Pode ser bastante útil quando se obtém a tabela de dados vinda, por exemplo, de
um ficheiro de Excel. Se considerar a variável Concelho, as categorias introduzidas estão em texto.
Quando passa para o SPSS é assumida como uma variável string. Pode então pedir-se uma
recodificação automática onde são atribuídos valores às categorias, por ordem alfabética. A tabela
de dados passa a ter uma nova variável no final, resultante da recodificação, sendo mantida a
variável antiga. O SPSS abre um ficheiro de output onde mostra as codificações efectuadas.
Selecção de casos
Permite seleccionar grupos de indivíduos de acordo com alguma condição. As situações onde se
recorre mais a esta opção são a selecção de um determinado grupo de casos (por exemplo, em
situações de questões de filtro), ou quando se pretende efectuar uma selecção aleatória dentro da
tabela de dados. Os elementos seleccionados podem ser filtrados (inactivos temporariamente –
opção que consta por defeito) ou simplesmente eliminados.
Por exemplo, ao pretender trabalhar apenas com elementos que possuem o ensino básico, activa-
se Data, Select Cases, selecciona-se If condition is satisfied, If.
Com a activação de If, surge uma nova janela que permite colocar a condição de selecção. Neste
caso, a variável é “Habilitações literárias” e até ensino secundário está codificado com o valor 1,
logo a condição fica “habilit = 1”. Ao correr esta condição com Continue e depois OK, fica a
tabela de dados com elementos filtrados (aparece um traço sobre as linhas de casos inactivos)
passando produzir resultados apenas com os casos seleccionados.
Uma outra opção é Random sample of cases, que permite uma selecção aleatória simples de casos
dentro da tabela de dados. Pode seleccionar uma percentagem de casos, ou um número exacto de
entre os primeiros assinalados.
Para seleccionar um conjunto específico de
casos sucessivos utilliza-se a opção Based
on time or case range. Basta depois
indicar os limites do intervalo de casos a
considerar. Esta opção é muitas vezes
utilizada quando se trabalha com séries
temporais.
Para voltar a utilizar todos os casos basta fazer Data, Select Cases, All Cases (guarda a última
condição de filtro, ou de selecção) ou Reset (volta à caixa de diálogo inicial, não guardando
qualquer condição).
Ainda é possível criar um ficheiro de “Syntax” a partir dos dos comandos que podem ficar
registados no output, ou seja, quando pedimos – Edit – options – Viewer – Display commands in
the log:
Quando se pede qualquer opção nas janelas, os comandos utilizados ficam registados no output.