Estatística e Análise de Dados 1

ESTATÍSTICA E ANÁLISE DE DADOS
AULAS SEMANA 1
INTRODUÇÃO E CONCEITOS BÁSICOS
Estatística é a ciência que se ocupa da obtenção de informação (amostragem), seu

tratamento inicial (ordenação, cálculo de características amostrais, agrupamento em
classes, representações gráficas – em suma, estatística descritiva e análise exploratória
de dados) com a finalidade de, através de resultados probabilísticos adequados, inferir
de uma amostra para a população. Por outras palavras, é um instrumento de leitura da
informação e da sua transformação em conhecimento.
❖ Parâmetros:
Universo
população Amostra
𝑋̅ 𝑀𝑒; 𝑀𝑜 Indicadores
µ (localização)
ou medidas
σ (dispersão) 𝑆′ estatísticas
N
𝑛
❖ Nota:
• µ - lê-se miú (média populacional)
• σ - lê-se sigma (desvio padrão populacional)
• 𝑋 ̅ – lê-se média amostral
❖ INFERÊNCIA ESTATÍSTICA- temos de estar perante amostras representativas

(probabilísticas). Para isso temos de ter:
• Uma lista de todos os elementos dessa população – Prob(a1) =…= Prob
1
(𝑉𝑛) = é conhecida a priori.
𝑁
• Podemos geral amostras de igual dimensão (𝑛1 =…=𝑛𝑘 ).
❖ Estimação:
• Estimação pontual: µ = 𝑋̅
• Estimação intervalar: ]𝐼𝜆 [ µ∗ = ]𝑎; 𝑏[
𝐻
• Ensaio de hipóteses: 0
𝐻1
❖ Quando não estamos perante amostras representativas, estudamos a amostra e

não se faz extrapolação para a população
❖ Variáveis: existem vários tipos de variáveis de acordo com as escalas de medida
utilizadas para os medir. É necessário identificarmos a natureza das variáveis de
que dispomos para trabalhar e, deste modo, escolher as análises adequadas. Estas
podem ser:
• Qualitativas: se registam qualidades, i.e, se não estão expressas em
números ou estando, não as quantificam:
➔ Qualitativas nominais: se as qualidades são registadas sem ordem,
i.e, são meras categorias: género, cor dos olhos, etc.
➔ Qualitativas ordinais: se as qualidades são registadas com ordem:
habilitações académicas, escalões etários, etc. Mas as qualidades
também podem ser expressas numa escala ordinal (exemplo: qual o seu
grau de satisfação com o estado atual da economia portuguesa). Estas
variáveis podem ter tratamento quantitativo porque são definidas em
intervalos a distâncias constantes entre 1 e 7.
• Quantitativas/Métricas: registam quantidades: altura, idade, nº de filhos
por agregado familiar, etc., e por isso, são números (tratados como tal e
não como códigos). Podemos distinguir entre as:
➔ Quantitativas discretas: se o número de valores que a variável pode
assumir for finito ou infinito numerável (assume sempre valores inteiros,
mesmo que não seja possível definir-se um máximo).
➔ Quantitativas contínuas: se o número de valores que a variável pode
assumir for infinito não numerável (quando não se pode contá-los
porque entre dois valores existe sempre um terceiro).
❖ Frequências: os valores que uma variável pode assumir podem ser representados
em frequências:
• Frequência absoluta (𝐹𝑖 ) – é o número de vezes que cada
modalidade/categoria ou valor da variável se repete.
• Frequência relativa (𝑓𝑖 ) – é o número de vezes que a
modalidade/categoria ou valor da variável ocorre relativamente ao total (=
𝐹 𝐹
proporção) em que (𝑓𝑖 = 𝑛𝑖 ) ou (𝑓𝑖 = 𝑁𝑖 ).
• Frequência relativa/absoluta acumulada – corresponde à soma do
número de ocorrências ou da proporção de elementos observados para as
modalidades da variável inferiores ou iguais à modalidade em causa.
• Nota: quando a variável é qualitativa nominal, não se calculam as
frequências acumuladas por estas pressuporem uma ordenação dos
valores da variável. Note-se ainda que as frequências relativas usualmente
são apresentadas em percentagens.
❖ MEDIDAS DE LOCALIZAÇÃO
1. Qualitativa nominal: Medida de localização
(tendência central) – MODA = sexo
masculino.
A moda é o valor que foi mais vezes observado. Pode ser calculada qualquer que
seja o tipo de variável, esta representa a modalidade da variável que ocorre mais
vezes. Esta vê-se nas frequências absolutas simples ou nas frquências relativas
simples.
2. Qualitativa ordinal
2.1 Medidas de localização de
tendência central:
Mo = (30-34) → moda
Me = (30-34) → mediana
A mediana pode ser também calculada para variáveis quantitativas. É um valor da

variável e é a medida de localização preferida para distribuições fortemente
assimétricas. Para ser calculada, os valores da variável têm de ser ordenados. É o
valor da variável que acumula até si 50% das observações. É o 2º quartil
Quartis dividem a distribuição dos valores da variável em 4 partes iguais em que:

• Q1 – é o valor da variável que acumula até so 25% das observações.
• Q2 – é a mediana
• Q3 – corresponde ao valor da variável que cumula até si 75% das observações.
Q1=25% Q2=50% Q3=75%
2.2 Medidas de localização de tendência não central
1º Quartil- contém à sua esquerda 25% das observações e à sua direita

os restantes 75% → Q1= (25-29) anos de idade
3º Quartil- tem à sua esquerda 75% das observações e à sua direita os
restantes 25% → Q3= (35-39) anos
3. Quantitativa discreta (medidas de localização de tendência central ou não
central).
3.1 Medidas de localização
3.1.1 MÉDIA
1
Média: (𝑋̅ = ∑𝑛𝑖=1 𝑥𝑖 ): pode ser um valor não
𝑛
assumido pela variável (contrariamente à moda) e
tem a desvantagem ser fortemente influenciada
por valores extremos e outliers da distribuição.
Tempo de leitura do semanário

preferido (min)
1ª VIA: dados classificados
∑𝑖 𝑋𝑖 ∑𝑖 𝑥𝑖 𝐹𝑖
𝑋̅ = = = ∑𝑖 𝑥𝑖 𝑓𝑖 , onde 𝐹𝑖 é a
𝑛 𝑛
frequência absoluta e 𝑓𝑖 é a frequência

relativa
𝑋̅= (30 × 0,09) + (45 × 0,12) + (50 × 0,04) + (60 × 0,19) + (75 × 0,08) + (90 × 0,12)
+(105 × 0,06) + (120 × 0,12) + (135 × 0,02) + (150 × 0,06) + (165 × 0,02) +(180 ×
0,06) + (195 × 0,02) = 2,7 + 5,4 + 2 + 11,40 + 6 + 10,8 + 6,3 + 14,4 + 2,7 + 9 + 3,3
+ 10,8 + 3,9 = 88,7 𝑚𝑖𝑛
2º VIA: dados não classificados (rol de dados)
∑ 𝑋𝑖 = 9 × 30 + 12 × 45 + 4 × 50 (… ) = 270 + 540 + 200(… ) = 8870

𝑖
∑𝑖 𝑋𝑖 8870
𝑋̅ = = = 88,7 min
𝑛 100
❖ Resumo
NOTA:
• Tendência central: média, média aparada, mediana e moda.
• Tendência não central: quartis, decis, percentis, mínimo e máximo.
AULAS SEMANA 2
MEDIDAS DESCRITIVAS
3.1 Medidas de localização (cont.)
3.1.2 MÉDIA APARADA A 5%
90% das observações centrais
Média aparada: excluindo os 5% dos valores ordenados mais baixos da

variável e os 5% dos valores mais elevados, calcula-se a média dos valores
que correspondem a 90% das observações centrais. É uma medida útil
quando existem outliers uma vez que podem ser eliminados neste processo.
3.1.3 MODA
❖ Mo= 60 min, i.e., o tempo de leitura do semanário preferido mais frequentemente
registado é de 60 minutos.
3.1.4 QUARTIS
❖ Q1 = 52,5 min → 25% dos leitores demoram, no máximo, 52,5 min a ler o
semanário preferido.
❖ Q2 = Me = 75 min, i.e., metade dos leitores demoram, no máximo, a ler o seu
semanário preferido 75 min.
❖ Q3 =120 min → 75% dos leitores demoram, no máximo, 120 min a ler o
Intervalo
interquartil
Intervalo de
(Q3 – Q1) = variação
120-55 = 65 ou
67,5 (Vmáx-
(dependendo Vmin.) = 195-
do critério que 30 = 165 min
escolhermos
Os outliers são valores anómalos e, por isso mesmo, afastam-se do padrão
considerado (entre Q3 e Q1), sendo classificados em moderados e severos:
• Outlier moderado- há dois outliers sobrepostos, que não se distinguem no
respetivo gráfico, e que estão identificados por um círculo.
𝑄3 + 1,5 × (𝑄3 − 𝑄4 ) < 𝑋𝑖 ≤ 𝑄3 + 3 × (𝑄3 − 𝑄1 ) OU 𝑄3 + 1,5 × (𝑄3 −
𝑄4 ) < 𝑋𝑖 ≤ 𝑄3 + 3 × (𝑄3 − 𝑄1 )
• Outlier severo- identificado no gráfico por um asterisco:
𝑋𝑖 > 𝑄3 + 3 × (𝑄3 − 𝑄1) OU 𝑋𝑖 < 𝑄1 − 3 × (𝑄3 − 𝑄1 )
Se não soubermos onde está o outlier, fazendo as contas abaixo, se sair fora dos
valores que nos deu é porque é um outlier
❖ Nota: um outlier moderado ou severo pode também ser definido por 𝑥̅ ± 𝑘 𝑠 ′ =

𝑥̅ ± 𝑠′ 88,7 ± 45,1184 (43,58; 133,82 ) ↔ 𝑎𝑚𝑝𝑙 = 90,24
{𝑥̅ ± 2 × 𝑠′ ↔ {𝑥̅ ± 2 × 45,1184 ↔ { (−1,54; 178,94) ↔ 𝑎𝑚𝑝𝑙 = 180,48
𝑥̅ ± 3 × 𝑠′ 𝑥̅ ± 3 × 45,1184 (−46,66; 224,06) ↔ 𝑎𝑚𝑝𝑙 = 270,72
❖ No caso: 𝑥̅ ± 2 × 𝑠′ = 180,48 → pode ser severo ou moderado.
❖ No caso: 𝑥̅ ± 3 × 𝑠′ = 270,72 → é severo.
❖ Vantagem: temos uma ideia da localização dos valores observados, da sua
dispersão, e do grau de assimetria da distribuição.
❖ Este gráfico (de extremos e quartis) é muito útil em análise de dados uma vez que
contempla muita informação, incluindo a identificação de outliers.
❖ O SPSS utiliza dois critérios para calcular os quartis:

• O critério da média ponderada: que no caso do exercício que fizemos dá
52,50. O 1º quartil nas frequências é dado por esta média, no entanto no
gráfico é 55 porque usa o critério de Tuckey. Chegamos a este valor pelas
statistics.
• O critério de Tuckey: que dá 55. A este critério chegamos pelo custom
tables.
• No caso do exercício a que isto corresponde, só o 1º quartil é que é
diferente em cada critério.
3.2 Medidas de Dispersão (dão nos uma ideia da variabilidade dos

valores da variável).
3.2.1 ABSOLUTAS
Variância:
A variância é uma medida de dispersão que avalia o quadrado dos afastamentos

em relação à média das observações. É expressa no quadrado das unidades da
variável, o que a torna mais difícil de interpretar.
∑𝑖 (𝑋𝑖 − 𝑋̅)2 ∑𝑖 (𝑋𝑖 − 𝑋̅)2 ∑𝑖 (𝑋𝑖 − 𝑋̅)2
𝑉𝑎𝑟(𝑋) = , =
𝑛 𝑛−1 𝑛−1
2
(30 − 88,7) (195 − 88,7)2
= + ⋯+ <=> 𝑉𝑎𝑟 (𝑋) = 2035,667 𝑚𝑖𝑛2
99 99
Esta fórmula lê-se: a adição sucessiva do quadrado dos desvios dos valores da
variável relativamente à sua média.
Desvio padrão:
O desvio padrão sendo a raiz quadrada positiva da variância é expressa nas

mesmas unidades que a variável em estudo. Significa que a média dos desvios em
relação à média.
S’ (desvio padrão amostral corrigido) = + √𝑉𝑎𝑟(𝑋) = +√2035,667 𝑚𝑖𝑛2 ≈

45,1184 𝑚𝑖𝑛
Interpretação: o desvio médio dos valores da variável relativamente à sua média é
de 45,1184 min.
A vantagem do desvio padrão relativamente à variância é que vem expressa na
mesma unidade de medida que a variável em estudo, como já foi referido.
❖ A variância e o desvio-padrão só podem ser calculados para variáveis

quantitativas porque medem o afastamento em relação à média.
Intervalo de variação (range):
O intervalo de variação corresponde à amplitude definida pelo valor resultante da

diferença entre o valor máximo e o valor mínimo.
(𝑉𝑎𝑙𝑜𝑟𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟𝑀í𝑛𝑖𝑚𝑜 ) = 195-30= 165 min.
Intervalo interquartilico:
O intervalo interquartílico corresponde à “caixa” da caixa-de-bigodes e indica-nos

onde se encontram os 50% de observações centrais.
Q3-Q1 = 120-52,5 = 67,5 min.
3.2.2 RELATIVAS
Coeficiente de variação:
O coeficiente de variação permite avaliar a dispersão de uma distribuição, ou

comparar a dispersão entre duas ou mais distribuições, e permite ainda medir a
representatividade da média. É usual aceitar-se que, se este coeficiente for
superior a 50%, a média deixa de ser representativa. Neste caso, deve-se preferir
a mediana ou a média aparada.
𝑠 𝑠′ 𝜎 45,1184
(𝑋̅ × 100; 𝑋̅ × 100; 𝜇 ) = coeficiente de variação = × 100 ≈ 50,9%
88,7
Caracterização do Tempo de leitura do semanário em termos de dispersão:

moderadamente dispersa. A média tende a não ser uma medida de localização de
tendência central representativa.
❖ Dizemos que é moderadamente dispersa, pois, o bigode do lado esquerdo
(inferior) é bastante mais pequeno que o bigode do lado direito (superior), logo a
mediana tende a aproximar-se do primeiro quartil porque a média vai ser
influenciada pelo bigode do lado direito.
GRÁFICOS
4.1 VARIÁVEIS NOMINAIS

❖ Se a variável for nominal o gráfico adequado é o gráfico circular em que a
soma das partes é 100%. O de barras também pode ser, mas também é
adequado para outras variáveis.
Gráfico Circular:
Figura 1 – Distribuição do semanário preferido dos leitores

Interpretação: metade dos leitores preferem o semanário Expresso, enquanto que as preferências
pelo Regional ou Sol são divididas igualmente pelos restantes leitores.
4.2 VARIÁVEIS ORDINAIS

❖ Dados de variáveis qualitativas ordinais ou de quantitativas discretas são
mais bem representados por gráficos de barras.
Gráfico de Barras:
Figura 2- Distribuição do grupo etário dos leitores
Interpretação: o grupo etário mais frequente nesta amostra tem idades entre 30
e 34 anos; o grupo com menor número de leitores é o dos mais jovens (com
menos de 25 anos).
4.3 VARIÁVEIS QUANTITATIVAS DISCRETAS

Gráfico de barras:
Figura 3- Distribuição do número de semanários lidos por mês

Interpretação: o número de semanários mais frequentemente lidos por mês é de 6 (o que
corresponde a 17 leitores); leem-se no mínimo 2 e no máximo 16 semanários.
Box-plot:
Figura 4- Distribuição do tempo de leitura do semanário (minutos)

4.4 VARIÁVEIS TRATADAS COMO MÉTRICAS OU QUANTITATIVAS (que
digam respeito ao mesmo assunto/tema).
❖ O gráfico de linhas é adequado quando se pretende descrever em simultâneo mais
de uma variável medidas nas mesmas unidades. Podem ser utilizados para
representar uma medida de tendência central (média ou mediana). Por exemplo,
se as variáveis forem qualitativas ordinais medidas numa escala tipo Likert e,
portanto, passíveis de serem tratadas como quantitativas, pode usar-se este tipo
de gráfico.
Gráfico de linhas:
Figura 5- Média de concordância a estes atributos

Interpretação: Todos os atributos estão à direita do ponto médio (3) o que significa
que nenhum dos leitores discorda ou discorda completamente destes atributos. O
atributo que é melhor classificado em média é “ter boa ilustração” (4,41) seguido dos
atributos “papel de boa qualidade” e “periocidade correta) (4,40 3 4,35
respetivamente). O atributo “lê-se facilmente” é o pior classificado, tendo uma média
de 3,43.
4.5 VARIÁVEIS QUANTITATIVAS CONTÍNUAS

❖ Dados de variáveis quantitativas contínuas são mais bem representados por
histogramas, pois o histograma é adequado para representar as frequências por
classes.
❖ Regra para o cálculo do número de classes (k): K = 5 para n < 25; K ≈ √𝑛 para
𝑛 ≥ 25.
❖ Quando se pretender definir classes de diferentes amplitudes, o histograma deixa
de ser adequado. Neste caso, recodifica-se a variável original em escalões,
passando a ser tratada como qualitativa ordinal.
4.6 GRÁFICOS PARA REPRESENTAR MEDIDAS DESCRITIVAS

❖ As medidas descritivas podem também ser apresentadas graficamente. É o caso
de perfis de médias ou de medianas (gráfico de linhas), diagrama de extremos e
quartis, etc.
❖ Este é construído com base nos quartis, no mínimo e no máximo.
❖ Este gráfico é muito útil em análise de dados uma vez que comtempla muita
informação.
❖ O fim dos “bigodes” não coincide necessariamente com o mínimo e máximo se
existirem outliers.
Diagrama de extremos e quartis:
❖ NOTA: Os gráficos devem ter títulos, indicando-se claramente qual a

característica/variável em estudo.
TABELAS
5.1 TABELAS DE FREQUÊNCIAS
5.1.1 Para variáveis nominais
Tabela 1- Tabela de frequências para o sexo dos leitores
5.1.2 Para variáveis ordinais
Tabela 2- Distribuição de frequência do grupo etário dos

leitores
5.1.3 Para variáveis quantitativas discretas
Tabela 3- Distribuição do tempo de leitura do semanário preferido (minutos)
5.2 TABELAS DE MEDIDAS DESCRITIVAS

❖ Podem ser conseguidas usando 2 comandos diferentes:
• Usando os comandos: analyse; descriptive statistics; explore
Tabela 4- Algumas medidas descritivas do número de semanários lidos por mês

Interpretação: Q3=9 semanários → 25% dos leitores leem no mínimo 9
semanários por mês e 75% dos leitores leem no máximo 9 semanários por
mês.
• Usando os comandos: tables; custom tables.
AULAS SEMANAS 3 E 4
CONCEITOS E EXPLICAÇÕES + DADOS BIVARIADOS
❖ Medidas descritivas:
• As medidas descritivas (ou de síntese) resumem os valores da variável (dos
dados) num só valor e estão classificadas em diversos tipos: localização de
tendência central; localização de tendência não central; dispersão e
concentração; assimetria; e achatamento.
• No entanto, para descrever corretamente o comportamento duma variável
são necessárias sempre mais do que uma medida, sendo fundamental
apresentar, pelo menos, uma de localização de tendência central e uma de
dispersão.
• No SPSS Statistics existem vários comandos que permitem calcular as
principais medidas descritivas. Por exemplo: Analyze → Descriptive
Statistics → Frequencies.
Percentis:
Os percentis dividem a distribuição de frequências em 100 partes iguais. Por

exemplo, 𝑃80 acumula até si 80% das observações, etc.
Há vários critérios para calcular os percentis. No SPSS Statistics: Analyze →
Descriptive Statistics → Explore → Statistics → Percentilles.
Dependendo do critério utilizado (do comando utilizado no SPSS Statistics),
assim os valores dos percentis podem ser diferentes. Se utilizarmos o critério da
média ponderada (Explore) dá um valor, se usarmos o critério de Tuckey
(Custom Tables), dá outro valor.
Enviesamento:
A comparação das medidas de tendência central permite-nos avaliar o

enviesamento dos dados. Em distribuições unimodais:
• Distribuição simétrica: Média = Mediana
• Assimétrica positiva: Média > Mediana
• Assimétrica negativa: Média < Mediana
No SPSS Statistics, o coeficiente da assimetria (skewness) é calculado de
acordo com a seguinte fórmula:
3
𝑛2 𝑀 3 ∑𝑛 ̅ 3
𝑖=1(𝑋𝑖− 𝑋 ) ∑𝑛 ̅ 2
𝑖=1(𝑋𝑖− 𝑋 )
• Skewness = (𝑛−1)(𝑛−2) 𝑆′ com
3 3
e 𝑆′ = [√ ]
𝑛 𝑛−1
• Skewness = 0 → distribuição simétrica

• Skewness > 0 → distribuição assimétrica positiva (aba direita mais longa)
• Skewness < 0 → distribuição assimétrica negativa (aba esquerda mais
longa).
Interpretação: a distribuição da variável x é assimétrica positiva na amostra
(valor) por exemplo.
Achatamento:
No SPSS Statistics, o coeficiente de achatamento ou de curtose (Kurtosis) é

calculado de acordo com a seguinte fórmula:
𝑛2 (𝑛 + 1)𝑀4 (𝑛 − 1)2
𝑲𝒖𝒓𝒕𝒐𝒔𝒊𝒔 = − 3 𝑐𝑜𝑚 𝑀4
(𝑛 − 1)(𝑛 − 2)(𝑛 − 3)𝑆′4 (𝑛 − 2)(𝑛 − 3)
4
∑𝑛𝑖=1(𝑋𝑖− 𝑋̅)4 ′4
∑𝑛𝑖=1(𝑋𝑖− 𝑋̅)2
= 𝑒𝑆 = [ √ ]
𝑛 𝑛−1
• Kurtosis = 0 → distribuição mesocúrtica

• Kurtosis > 0 → distribuição leptocúrtica (menos achatada que a
gaussiana)
• Kurtosis < 0 → distribuição platicúrtica (mais achatada que a
gaussiana)
Interpretação: a distribuição da variável x é platicúrtica na amostra (valor) por
exemplo.
ANÁLISE DE DADOS BIVARIADOS
❖ Numa análise descritiva bivariada pretende-se descrever a relação entre duas
características, isto é, perceber de que forma a distribuição de uma delas se
comporta perante a alteração na distribuição da outra.
❖ O objetivo é fazer análises comparativas entre diversos grupos; como as dimensões
dos grupos podem não ter o mesmo tamanho, é necessário utilizar uma unidade de
comparação, que é a percentagem.
❖ Importa também referir que as relações entre variáveis, que se pretendem aqui
identificar, estabelecem ou não relações de dependência.
❖ As relações de dependência, em que há uma variável que é explicada pela outra
(relação causa-efeito), são definidas pelas teorias.
❖ Tal como na análise descritiva univariada, as técnicas a utilizar dependem da
natureza das variáveis em estudo, havendo sempre a possibilidade de se recorrer
a gráficos, tabelas e a medidas de associação (entre as quais se encontram as de
correlação).
❖ Principais técnicas da análise descritiva bivariada:
1. GRÁFICOS ADEQUADOS
1.1. Duas variáveis qualitativas nominais
Gráfico circular:
Título: Distribuição do semanário preferido por sexo dos leitores

❖ Se o gráfico circular é adequado para representar graficamente uma variável
qualitativa nominal, continua a ser adequado para representar graficamente duas
variáveis qualitativas nominais.
❖ Interpretação: os leitores do sexo masculino preferem maioritariamente o
semanário expresso (54,5%) em contraste com as suas preferências pelo sol
(15,2%); enquanto que as leitoras têm uma preferência pelo sol (44,1%) mas que
não se distancia muito das suas preferências pelo expresso (41,2%). Podemos
também reparar qua percentagem de leitores que preferem os semanários
expresso e regional é superior no grupo dos leitores do sexo masculino, quando
comparada com o grupo do sexo feminino (54,5% e 30,3% vs 41,2% e 14,7%,
respetivamente). Contudo a percentagem de leitoras do semanário sol (44,1%) é
superior à percentagem correspondente ao grupo masculino (15,2%). Deste modo
denota-se uma relação entre o semanário preferido e o sexo do leitor.
1.2 Duas variáveis qualitativas nominais e outras tratadas como tal

(ordinais).
Gráfico de barras agrupadas (clustered graph)

❖ O gráfico de barras agrupadas decorre da representação gráfica das percentagens
que resultam do cruzamento de duas variáveis e, usualmente, apresentadas numa
tabela de contingência (crosstabs).
❖ Contudo, quando se pretende identificar relações entre as variáveis, deve pedir-se
as percentagens segundo uma das variáveis e não sobre o total.
❖ Sempre que o registo de uma categoria (ou barra de uma cor) dominante num grupo
corresponder a um registo minoritário da categoria (barra da mesma cor) no outro
grupo, diz se que as variáveis estão relacionadas a uma inversão dos pesos de
uma categoria em cada um dos grupos da outra variável.
❖ Analisam-se dois casos: um com a percentagem do total, outro com a percentagem
segundo o sexo.
❖ Caso 1: percentagem do total
• Gráfico acima apresentado.
• Interpretação: o gráfico de barras agrupadas evidencia que o grupo de
leitores mais expressivo corresponde aos leitores do sexo masculino e que
preferem o expresso (36%), sendo o menos expressivo, com uma
percentagem de apenas 5%, o grupo de leitores do sexo feminino e que
preferem o regional.
❖ Caso 2: percentagem segundo uma das variáveis:

• É um gráfico que fornece informação idêntica ao gráfico de barras
empilhadas a 100% e que permite, por isso mesmo, identificar potenciais
associações entre variáveis.

❖ Interpretação: a mesma retirada para o gráfico de barras empilhadas a 100%
Gráfico de barras empilhadas (stacked graph)

❖ O gráfico de barras empilhadas a 100% é um gráfico adequado a duas variáveis
qualitativas quando se pretende ver se há alguma relação entre elas.
❖ Interpretação: a percentagem de leitores que preferem o expresso é maioritária
no grupo dos leitores do sexo masculino (36%) quando comparada com o grupo
do sexo feminino (14%). Em contraste, a percentagem de leitores que preferem o
sol é bastante relevante no grupo de leitores do sexo feminino (15%), já que nos
leitores do sexo masculino é muito menos. Deste modo, identificam-se algumas
diferenças nas preferências entre os dois sexos: enquanto que no grupo de
leitores do sexo masculino há uma preferência clara pelo Expresso, no grupo das
leitoras, essa preferência, já não sendo tão clara, vai para o sol, seguido de perto
pelo expresso. Assim, conclui-se haver uma relação entre estas características
❖ Nota: se as variáveis estiverem relacionadas na amostra, há uma inversão nas
cores das barras “dominantes”. Neste caso a barra de cor azul predomina no
grupo dos leitores e a barra de cor guerná predomina no grupo das leitoras.
MEDIDAS DE ASSOCIAÇÃO (CORRELAÇÃO)

❖ São indicadores que pretendem medir a intensidade da relação e em algumas
medidas também o sentido (positivo ou negativo) da relação entre duas variáveis.
❖ Quando pelo menos uma variável é qualitativa nominal fala-se em associação,
quando ambas são quantitativas ou qualitativas ordinais fala-se em correlação
(no entanto podemos generalizar o termo associação para qualquer tipo de
relação entre duas variáveis), e nesses casos os indicadores dão a intensidade e
o sentido da relação.
❖ Não havendo um consenso, alguns autores apontam valores de referência para a
interpretação dos coeficientes de associação.
❖ No entanto, é consensual que valores próximos de 0 traduzem relações fracas,
valores em torno de 0,5 traduzem relações moderadas e que valores próximos
de 1 representam valores fortes.
❖ No caso dos coeficientes de correlação, valores negativos traduzem relações
negativas e valores positivos relações positivas.
❖ As figuras abaixo ilustram o tipo de correlações e os diferentes tipos de
intensidades e sentidos das relações, respetivamente.
❖ Por fim, importa referir que as medidas de associação, em geral e per si, não
permitem descrever a relação entre as duas características, devendo ser
apresentadas como um complemento à análise dos gráficos e/ou tabelas.
1. MEDIDAS MAIS USUAIS

1.1 Coeficiente V de Cramer
❖ É uma medida de associação adequada a duas variáveis nominais
(ou tratadas como tal).
❖ Este coeficiente dá a intensidade da relação e é calculada a partir de
uma tabela de contingência com pelo menos uma variável qualitativa
nominal não dicotómica (quando ambas as variáveis nominais são
dicotómicas, a medida de associação Phi é a adequada).
❖ O valor da medida varia entre 0 e 1 e quanto mais se aproxima de 1
mais forte é a associação, e em que 0 representa a ausência de
associação.
❖ Interpretação: A intensidade da associação entre as variáveis, semanário preferido

e sexo, é fraca atender para moderada (V-Cramer = 0,324).
❖ As percentagens são within row (sexo)
❖ As percentagens são within column (semanário)
❖ As percentagens do total
❖ Interpretação: a tabela revela que:
• Do grupo dos leitores que preferem o Expresso, 28% são do sexo feminino.
• Do grupo dos leitores so sexo masculino, 30,3% preferem o regional.
• Do grupo dos leitores que preferem o sol, 60% são do sexo feminino.
• A percentagem do total de leitores do sexo masculino são 66% (em 100).
• Os leitores que preferem o regional são 25% do total.
• 36 leitores inquiridos de um total de 100 são do sexo masculino e preferem
o expresso (ocorrência simultânea).
AULAS SEMANA 5
HISTOGRAMAS
❖ No SPSS só se conseguem fazer histogramas com classes de igual amplitude e,
em alguns casos, apresentar as frequências absolutas (contagem de leitores),
situações estas que restringem a utilidade destes gráficos para caracterizar a
relação entre 2 variáveis, uma quantitativa contínua e outra qualitativa.
Apresentam-se dois casos: histograma estilo pirâmide e histograma em painel.
1.3 Uma variável métrica (quantitativa) e uma variável qualitativa nominal

(ou tratada como tal)
Gráfico de frequências (variável nominal dicotómica) – histograma em
pirâmide
❖ Interpretação do gráfico e da tabela:
• No eixo do x temos representado o número de leitores e no do y o número
de semanários lidos por mês.
• 11 leitoras leem entre 4 e 6 semanários por mês (moda).
• A moda no grupo dos leitores do sexo masculino é maior; há 21 leitores que
leem entre 6 e 8 semanários por mês, mas também há mais leitores do
sexo masculino do que do sexo feminino.
• Há 5 leitores que leem até 16 semanários por mês, no grupo dos leitores
do sexo masculino, enquanto que no grupo de leitoras do sexo feminino, o
máximo de semanários lidos por mês é 10.
• Há mais leitores do sexo masculino do que do sexo feminino (66 vs. 34).
• No grupo das leitoras há na verdade duas modas (pois cresce, decresce e
volta a crescer), mas a moda global é (4,6).
• No grupo dos leitores há três modas), ma a moda global é (6,8).
❖ Quando a variável é dicotómica (variável qualitativa nominal com 2 categorias) além

de poder fazer o histograma em painel, posso também fazer este tipo de
histograma.
❖ Este gráfico só funciona quando a quantitativa nominal só tem 2 categorias.
❖ Para este gráfico a escala do y tem que ser a mesma tanto do lado esquerdo como
do lado direito
Gráfico de medidas:
❖ Interpretação do boxplot:
• Vê-se perfeitamente que a dispersão do número de semanários lidos por
mês no grupo das leitoras é menor que no grupo do sexo masculino →
maior dispersão no grupo dos leitores do sexo masculino (o intervalo de
variação no grupo das leitoras é de 7 enquanto que no outro grupo é de
13).
• Quer a mediana, quer o 1º e o 3º quartil do grupo de leitoras do sexo
feminino são inferiores à mediana, 1º e 3º quartis do grupo de leitores do
sexo masculino.
• Há mais leitores do sexo masculino que leem mais semanários por mês.
• O número máximo de semanários lidos por mês no grupo das leitoras é 9
enquanto que no grupo dos leitores é 16 → há uma diferença.
• Nas leitoras do grupo feminino a mediana aproximava-se mais do 1º quartil,
tal como nos leitores do sexo masculino e portanto era assimétrica positiva.
• O número mínimo de semanários lidos por mês no grupo das leitoras é de
2 enquanto o correspondente mínimo no outro grupo é 3.
• Enquanto que a mediana do número de semanários lidos por mês no grupo
das leitoras é 5,5, a mediana da mesma variável no outro grupo é de 7
semanários lidos por mês.
• O 1º quartil é 4 e 5 (feminino e masculino respetivamente) e o 3º quartil é 8
e 10 respetivamente.
• O intervalo interquartilico no grupo das leitoras é 4 (8-4) e no grupo dos
leitores é 5 (10-5).
• A distribuição do número de semanários lidos por mês em ambos os grupos
é assimétrica positiva (skewness fem. = 0,029; skewness mas. = 0,967).
• A distribuição do número de semanários lidos por mês em ambos os grupos
é menos achatada que a distribuição normal, no grupo das leitoras é
platicúrtica (-1,185) enquanto que no outro grupo é leptocúrtica (0,073).
• Não há valores anómalos (outliers) em ambos os grupos.
❖ O boxplot é adequado para representar os quartis, o mínimo e o máximo (e os

intervalos de variação e interquartilico) e os outliers (moderados e severos), quando
estes existirem.
Se for semanário preferido em vez de sexo:
❖ Interpretação do gráfico:
• A dispersão do número de semanários lidos por mês é maior para o
expresso a comparar com os outros 2 semanários, se bem que a diferença
para o regional não é tão grande quanto a diferença para o sol.
• O expresso e o sol têm a mesma mediana e o mesmo 1º quartil, só diferem
no 3º quartil, enquanto que o expresso e o regional têm o mesmo 3º quartil.
• O semanário mais lido por mês é o expresso e o menos lido é o sol.
• A distribuição do número de semanários lidos por mês é assimétrica
positiva no expresso (1,203), no regional (0,696) e no sol (0,309).
• A distribuição do número de semanários lidos por mês é platicúrtica no
grupo regional (-0,259), e leptocúrtica nos outros dois semanários,
expresso e sol (1,104 e 0,112 respetivamente).
• Existem outliers, 32 e 68.
• (Podia dizer mais coisas).
1.2 Medida de associação adequada a estas variáveis se existir uma relação

causal entre elas:
1.2.1 ETA:
❖ Medida de associação que varia entre 0 e 1 → 𝟎 ≤ 𝑬𝑻𝑨 ≤ 𝟏

❖ Podemos dizer que a relação entre as variáveis “número de semanários lidos por
mês” e “sexo” é fraca → 0,295, como podemos observar na tabela apresentada.
❖ Como podemos também observar na tabela ao lado o “Eta Squared” é 0,087, que
multiplicado por 100 dá 8,7%, logo: 8,7% das variações do “número de semanários
lidos por mês” (variável dependente) é explicada pela variável independente “sexo”.
❖ Há uma relação causal, ou seja, uma função linear (função reta) em que eu digo
que se y for a nossa variável dependente (número de semanários lidos por mês) e
o x for a variável independente (sexo) → quer dizer que y = a + bx
❖ Como havia diferenças no gráfico de medidas (boxplot) no máximo de número de
semanários lidos então pedimos a medida de associação associada a uma variável
quantitativa e a uma variável qualitativa nominal ou tratada como tal.
❖ A medida de associação adequada só funciona se houver uma relação causal, isto
é, se o número de semanários lidos por mês for explicado pelo sexo.
❖ Esta medida, como já foi referido, deve ser utilizada quando se tem uma variável
quantitativa e uma variável qualitativa nominal (ou tratada como tal), em que uma
delas assume o estatuto de variável dependente e a outra o de variável
independente.
❖ Previamente ao cálculo do Eta é necessário identificar os papéis das duas
variáveis.
❖ Sempre que não seja muito evidente qual das duas variáveis é a independente deve
evitar-se esta medida.
❖ Este indicador traduz a proporção (ou a percentagem, quando multiplicado por 100)
da variação da variável dependente que é explicada pela variável independente.
❖ Em cima estão representadas as duas maneiras de pedir o ETA:
• Compare means: tudo normal.
• Crosstabs: se utilizarmos estes comandos, ele dá-nos para as duas
variáveis enquanto dependentes. Como nós sabemos que a dependente é
o y (número se semanários lidos por mês), não vamos ligar ao valor ETA
do sexo.
Gráfico de frequências – Histograma em painel:
❖ Interpretação do gráfico acima.

• No grupo das leitoras há poucas frequências acima da curva da normal; no
grupo dos leitores há mais frequências acima da curva da normal → quer
dizer que o sexo vai explicar o número de semanários lidos.
• Só há 11 leitoras que leem entre 4 e 6 semanários por mês → moda.
• No grupo dos leitores há 21 leitores que leem entre 6 e 8 semanários por
mês
• Ambas são assimétricas positivas.
• Kurtoise: A curva masculina é mais leptocúrtica; a curva feminina é
negativa, é platicúrtica pois é menos achatada que a normal.
❖ Usamos quando temos uma quantitativa e uma qualitativa.
1.4 Duas variáveis métricas (quantitativas)

Gráfico de dispersão (scatter-dot ou scatter-plot)
❖ Interpretação do gráfico acima:
• Intensidade muito grande, quase em linha reta.
• A relação linear entre os tempos de leitura dos dois tipos de jornais (quanto
à periodicidade) evidencia ser forte e positiva, uma vez que os círculos
correspondentes aos pares de valores estão bastante próximos da reta
traçada que apresenta declive positivo, ou seja, ambas as variáveis variam
no mesmo sentido: quando o tempo de leitura dos diários cresce, o tempo
de leitura dos semanários também cresce e de forma muito clara.
❖ O gráfico de dispersão (scatter-dot) é adequado para representar relações, em

particular relações lineares, entre duas variáveis quantitativas.
❖ Se existir uma forte relação linear (positiva ou negativa) entre as variáveis, os pares
de valores posicionam-se bastante próximos de uma reta traçada à mão (ou de
uma reta ajustada.
❖ Se pelo contrário se afastam dessa reta, visualiza-se que a relação linear entre as
variáveis é fraca ou mesmo inexistente.
❖ A figura abaixo apresenta diferentes tipos de relação e uma situação em que não
existe qualquer relação linear ou não linear (c).
Temos ainda 2 variações do gráfico representado acima (mas que contém

a mesma informação):
❖ Interpretação dos gráficos:

• No primeiro gráfico os círculos maiores têm mais frequência e os círculos
menores têm menos frequência.
• No segundo gráfico: os círculos com a cor mais forte têm mais frequência
e os círculos com a cor menos forte têm menos frequência.
1.3 Medida de correlação adequada
1.3.1 R de Pearson
❖ Coeficiente de correlação linear de Pearson.

❖ É uma medida de correlação que se aplica quando
se pretende analisar a relação entre duas variáveis
quantitativas.
❖ Esta fórmula lê-se: quociente entre a covariância e os produtos dos respetivos
desvios padrão.
❖ Esta medida só deve
ser utilizada se a
relação entre duas
variáveis for linear,
pelo que antes de a calcular é necessário representar a relação entre as duas
variáveis num diagrama de dispersão.
❖ Da análise do gráfico facilmente se avalia o tipo de relação, linear (forte ou fraca,
negativa ou positiva) ou não linear.
❖ Tal como no caso do ETA, existindo uma relação de causa-efeito entre as duas
variáveis em estudo, é usual calcular e interpretar o 𝑅 2 .
❖ Este indicador traduz a proporção (ou a percentagem, quando multiplicado por 100)
da variação da variável dependente que é explicada pela variável independente.
❖ Se duas variáveis forem quantitativas e se não existir uma relação de tipo linear
entre elas não se deverá calcular o coeficiente R de Pearson.
❖ Interpretação da tabela (relacionada com o scatter-dot feito acima):
• As variáveis estão fortemente relacionadas na amostra.
• A relação linear entre as variáveis é bastante forte e positiva (i.e., variáveis
variam na mesma direção: quando uma cresce, a outra também ou quando
uma decresce, a outra também decresce).
1.5 Duas variáveis ordinais

1.5.1 Medida de correlação adequada: Rho de Spearman (medida de
correlação não paramétrica)
❖ É uma medida de correlação ordinal (rank correlation) que se aplica quando se

pretende analisar a relação entre duas variáveis ordinais.
❖ −𝟏 ≤ 𝑹𝒉𝒐 𝒅𝒆 𝑺𝒑𝒆𝒂𝒓𝒎𝒂𝒏 ≤ 𝟏
❖ Usa no seu cálculo os valores ordenados (ranks) e não os valores observados.
❖ O Rho de Spearman é não paramétrico, portanto é linear e não linear.
❖ Como já foi referido, para o cálculo deste coeficiente, é necessário fazer se a
ordenação das variáveis caso as variáveis sejam quantitativas.
❖ Por exemplo, para ordenar os valores das idades dos alunos presentes a esta aula:
• Começamos por recolher as idades dos alunos presentes.
• Depois, ordenamos as idades por ordem crescente (ordenação inicial).
• De seguida, como temos empates, temos que fazer a ordenação final onde
fazemos as seguintes contas:
𝟏+𝟐+𝟑+𝟒+𝟓+𝟔+𝟕+𝟖 𝟑𝟔
➔ Empates 18 = =
𝟖 𝟖
= 4,5 → isto quer dizer que todos os
alunos que têm 18 anos vão ocupar
o posto 4,5.
𝟗+𝟏𝟎+𝟏𝟏+𝟏𝟐 𝟒𝟐
➔ Empates 19 = = =
𝟒 𝟒
10,5 → isto quer dizer que todos os
alunos que têm 19 anos vão ocupar
o posto 10,5.
𝟏𝟑+𝟏𝟒
➔ Empates 20 = = 13,5 → isto
𝟐
quer dizer que todos os alunos que
têm 19 anos vão ocupar o posto
10,5.
➔ As restantes idades não estão em
empate portanto assumem o posto
que já tinham na ordenação inicial.
• Depois, fazemos a soma das ordenações, somando todos os valores da
coluna da ordenação final. → soma = 210.
• Por fim fazemos a média das ordenações (mean rank) onde dividimos a
soma do total pelo número de inquiridos → 10,5.
❖ É assim que o Rho de Spearman é escolhido.
❖ Quando temos muitas situações de empate, o tau (letra grega) deve ser preferido.
❖ Com duas quantitativas que foram previamente ordenadas:
❖ Interpretação tabela:
• Há uma relação forte e positiva (0,988 ou 0,953 se atendermos aos
empates).
❖ Relação entre duas variáveis ordinais:
❖ Interpretação:
• O Rho de Spearman, sendo igual a 0,582, já vamos dizer que é uma relação
moderada, enquanto que na tabela anterior havia uma relação forte entre
as variáveis.
• A relação entre estas variáveis é moderada (0,582 ou 0,520 se atendermos
aos empates).
AULAS SEMANA 6
INSERIR TÍTULO
1.6 Uma variável métrica (quantitativa) e uma variável qualitativa nominal
(ou tratada como tal)
Gráfico de linhas ou perfil de médias
• Os níveis médios da concordância no grupo dos leitores do sexo masculino,
são quase sempre superiores aos níveis médios de concordância do outro
grupo, com exceção do “lê-se facilmente”; “temas tratados de grande
interesse”; “informação atualizada”.
• Ambos os sexos atribuem o mesmo nível médio de concordância à “leitura
agradável”.
• Relativamente aos atributos “leitura agradável”, “assuntos/temas bem
arrumados”, “tem boa ilustração”, “informação atualizada” e “temas tratados
de grande interesse” têm médias muito idênticas. Ou seja, os sexos dos
leitores têm as mesmas preferências nestes atributos.
❖ O gráfico de linhas é adequado para representar graficamente a média ou a

mediana da variável quantitativa nos diferentes grupos definidos pela variável
qualitativa.
1.4 Duas variáveis métricas (quantitativas)

Gráfico de dispersão (scatter-dot ou scatter-plot)
❖ Gráfico já feito anteriormente, estamos a fazer de novo para acrescentar uma

matéria que ainda não tinha sido falada.
❖ Interpretação do gráfico abaixo:
• Da interseção das duas linhas de referência, o círculo que está no meio das
duas corresponde ao par de valores: x=125; y= 90.
• Cada círculo corresponde a um par de valores.
• Quanto mais próximos estiverem os círculos da reta ajustada melhor a
intensidade da relação.
• Se o declive da reta é positivo quer dizer que a intensidade está próxima
de +1.
❖ Gráfico de cima (quadrantes):

• O círculo pode ser dividido em 4 partes iguais, que se designam
quadrantes.
• O 1º quadrante corresponde à parte positiva do x, e à parte positiva do y.
• O 2º quadrante corresponde à parte negativa do x e à parte positiva do y.
• O 3º quadrante corresponde à parte negativa do x e à parte negativa do y.
• O 4º quadrante corresponde à parte positiva do x e à parte negativa do y.
• Isto quer nos dizer que, quando temos uma covariância positiva, ela pode
ser ditada pelos quadrantes 1 e 3 → costumamos dizer quando têm
andamentos positivos → quando uma cresce a outra também cresce, ou
quando uma decresce a outra também decresce.
• Covariâncias negativas sucedem ao quadrante 2 e 4 → quando uma
decresce a outra cresce, ou quando uma cresce a outra decresce.
TABELAS DE FREQUÊNCIAS E DE MEDIDAS DESCRITIVAS
❖ As tabelas estatísticas apresentam maior precisão nos resultados relativos às
variáveis em estudo:
• Se as variáveis forem qualitativas, as tabelas adequadas são as tabelas
de contingência (Crosstabs);
• Se uma delas for quantitativa e a outra qualitativa, a tabela de
(comparação de) medidas descritivas (via Tables, Custom tables ou
via Explore) é a tabela adequada.
• No caso de duas variáveis quantitativas, não se justifica a realização
de uma tabela, dada a sua dimensão e a muito reduzida interpretação que
permite.
1.1 Tabelas de contingência ou de dupla entrada
❖ Interpretação da tabela:
• Registam-se 36 leitores que preferem o semanário Expresso e que são do
sexo masculino.
• Dos leitores que preferem o expresso, 72% são do sexo masculino.
• Dos leitores do sexo masculino, 54,5% preferem o Expresso como
• 50% dos leitores preferem o semanário Expresso.
• 66% dos leitores são do sexo masculino.
• 14% dos leitores são do sexo feminino e preferem o semanário expresso.
• 50 leitores preferem o semanário expresso.
• 34 leitores são do sexo feminino.
• 100 leitores responderam a ambas as questões, isto é, ao sexo e ao
semanário (neste caso corresponde ao total de indivíduos alvo do estudo).
• Identifica-se uma potencial relação entre o semanário preferido e o sexo
uma vez que dos 66 leitores que são do sexo masculino, 36 preferem o
expresso (54,5%), enquanto que, dos 34 leitores do sexo feminino, 44,1%
preferem o sol e 41,2% preferem o expresso.
• De outra forma, verificam-se algumas alterações nas preferências do
semanário quando se passa da análise dos leitores para a análise das
leitoras.
❖ São adequadas a variáveis qualitativas, devendo-se privilegiar as percentagens em

linha e/ou coluna, quando o objetivo seja descrever a relação entre as duas
características em estudo.
1.2 Tabelas de comparação de medidas descritivas (Custom tables)
❖ Interpretação da tabela:
• A média do tempo de leitura do semanário Expresso é maior (118,2
minutos) do que as médias dos tempos de leitura dos outros dois
semanários (Regional = 61,4 minutos e Sol = 57 minutos).
• Os desvios padrão, quando comparados com as respetivas médias, são
menos de metade em todos estes semanários, o que leva a concluir-se que
a dispersão do tempo de leitura dos semanários preferidos, Expresso,
Regional e Sol, em torno da sua média, é fraca.
• Assim, conclui-se pela existência de uma relação moderada entre o tempo
de leitura e o semanário preferido, já que os leitores que preferem o
Expresso se diferenciam dos leitores que preferem os outros dois
semanários, embora estes dois grupos de leitores não se diferenciem muito
em termos do tempo médio de leitura.
❖ São mais adequadas para caracterizar a relação entre uma variável quantitativa e
uma qualitativa, em que se calculam as medidas descritivas para a quantitativa em
cada grupo definido pela qualitativa.
ALFA DE CRONBACH
❖ É um coeficiente que vai medir as correlações parciais e totais entre as variáveis.
❖ Às vezes temos alfa de cronbach’s entre 4 itens → vai considerar as correlações
totais entre cada par de combinações.
❖ Vai medir estas relações para medir o grau de consistência dadas às respostas
daqueles itens.
❖ Quando esta medida é baixa quer dizer que uma parte dos respondentes
respondeu num sentido, e outra parte respondeu noutro sentido → não há
consistência entre respostas e por isso não podemos avançar com o compute.
❖ Grau de consistência interna de um grupo de variáveis ou itens e isso é dado pelas
respostas que cada inquirido dá.
EXERCÍCIO
P (A / T)
(probabilidade
de A sabendo
T)
❖ A)
𝑃 (𝐸𝑥𝑝𝑟𝑒𝑠𝑠𝑜 ∩𝑀)
Nota: na probabilidade condicionada ficaria 𝑃 (𝐸𝑥𝑝𝑟𝑒𝑠𝑠𝑜)
❖ B)
34
❖ C) 100 = 0,34 = 34%
25
❖ D) 100 = 0,25 = 25%
❖ E)
5
❖ F) 𝑃 (𝐹 ∩ 𝑅𝑒𝑔𝑖𝑜𝑛𝑎𝑙) = 100 = 0,05 = 5%
Perfil de Medianas
• O grupo dos leitores do sexo masculino, atribuem uma concordância
mediana sempre superior ao do outro grupo, nos itens “papel de boa
qualidade”, “periodicidade correta”, e “lê-se facilmente”.

Estatística e Análise de Dados 1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística e Análise de Dados 1

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA E ANÁLISE DE DADOS

Estatística é a ciência que se ocupa da obtenção de informação (amostragem), seu

❖ INFERÊNCIA ESTATÍSTICA- temos de estar perante amostras representativas

❖ Quando não estamos perante amostras representativas, estudamos a amostra e

A mediana pode ser também calculada para variáveis quantitativas. É um valor da

Quartis dividem a distribuição dos valores da variável em 4 partes iguais em que:

Q1=25% Q2=50% Q3=75%

2.2 Medidas de localização de tendência não central

1º Quartil- contém à sua esquerda 25% das observações e à sua direita

Tempo de leitura do semanário

frequência absoluta e 𝑓𝑖 é a frequência

∑ 𝑋𝑖 = 9 × 30 + 12 × 45 + 4 × 50 (… ) = 270 + 540 + 200(… ) = 8870

90% das observações centrais

Média aparada: excluindo os 5% dos valores ordenados mais baixos da

❖ Nota: um outlier moderado ou severo pode também ser definido por 𝑥̅ ± 𝑘 𝑠 ′ =

❖ O SPSS utiliza dois critérios para calcular os quartis:

3.2 Medidas de Dispersão (dão nos uma ideia da variabilidade dos

A variância é uma medida de dispersão que avalia o quadrado dos afastamentos

O desvio padrão sendo a raiz quadrada positiva da variância é expressa nas

S’ (desvio padrão amostral corrigido) = + √𝑉𝑎𝑟(𝑋) = +√2035,667 𝑚𝑖𝑛2 ≈

❖ A variância e o desvio-padrão só podem ser calculados para variáveis

Intervalo de variação (range):

O intervalo de variação corresponde à amplitude definida pelo valor resultante da

O intervalo interquartílico corresponde à “caixa” da caixa-de-bigodes e indica-nos

O coeficiente de variação permite avaliar a dispersão de uma distribuição, ou

Caracterização do Tempo de leitura do semanário em termos de dispersão:

4.1 VARIÁVEIS NOMINAIS

Figura 1 – Distribuição do semanário preferido dos leitores

4.2 VARIÁVEIS ORDINAIS

4.3 VARIÁVEIS QUANTITATIVAS DISCRETAS

Figura 3- Distribuição do número de semanários lidos por mês

Figura 4- Distribuição do tempo de leitura do semanário (minutos)

Figura 5- Média de concordância a estes atributos

4.5 VARIÁVEIS QUANTITATIVAS CONTÍNUAS

4.6 GRÁFICOS PARA REPRESENTAR MEDIDAS DESCRITIVAS

❖ NOTA: Os gráficos devem ter títulos, indicando-se claramente qual a

Tabela 1- Tabela de frequências para o sexo dos leitores

5.1.2 Para variáveis ordinais

Tabela 2- Distribuição de frequência do grupo etário dos

Tabela 3- Distribuição do tempo de leitura do semanário preferido (minutos)

5.2 TABELAS DE MEDIDAS DESCRITIVAS

Tabela 4- Algumas medidas descritivas do número de semanários lidos por mês

Os percentis dividem a distribuição de frequências em 100 partes iguais. Por

A comparação das medidas de tendência central permite-nos avaliar o

• Skewness = 0 → distribuição simétrica

No SPSS Statistics, o coeficiente de achatamento ou de curtose (Kurtosis) é

• Kurtosis = 0 → distribuição mesocúrtica

Título: Distribuição do semanário preferido por sexo dos leitores

1.2 Duas variáveis qualitativas nominais e outras tratadas como tal

Título: Distribuição do semanário preferido por sexo dos leitores

❖ Caso 2: percentagem segundo uma das variáveis:

Título: Distribuição do semanário preferido por sexo dos leitores

Gráfico de barras empilhadas (stacked graph)

Título: Distribuição do semanário preferido por sexo dos leitores

MEDIDAS DE ASSOCIAÇÃO (CORRELAÇÃO)

1. MEDIDAS MAIS USUAIS

❖ Interpretação: A intensidade da associação entre as variáveis, semanário preferido

❖ As percentagens são within column (semanário)

1.3 Uma variável métrica (quantitativa) e uma variável qualitativa nominal

❖ Quando a variável é dicotómica (variável qualitativa nominal com 2 categorias) além

❖ O boxplot é adequado para representar os quartis, o mínimo e o máximo (e os

Se for semanário preferido em vez de sexo:

1.2 Medida de associação adequada a estas variáveis se existir uma relação