EEEA Cap.2

2.
Tratamento de dados [Capítulo 2]
 Conceitos principais
 População versus amostra
População:
o conjunto de TODOS os INDIVÍDUOS que queremos estudar;
o dimensão da população – N = ?;
o característica da população chama-se PARÂMETRO.
1
Amostra:
o conjunto dos INDIVÍDUOS que queremos estudar;
o dimensão da amostra – n = ?;
o característica da amostra chama-se ESTATÍSTICA.
Dimensão
População (N) Amostra (n)
infinita finita
finita
Que INDIVÍDUOS que fazem parte da população? Ex: Empresas, pessoas, países, regiões,
etc.
2
Como se escolhem os indivíduos que fazem parte da amostra?
- Processos de amostragem – formas de escolher/selecionar os indivíduos da população

e que vão constituir a amostra. Uma boa amostra tem que ser representativa dos indivíduos
da população.
- Existem vários processos de amostragem – falados na aula anterior
3
Classificação das variáveis
O que é uma variável ou um dado? É uma característica ou atributo do indivíduo que
queremos estudar. Vamos representar a variável por uma letra maiúscula:
o Ri – rendimento mensal em euros da família i, i = 1, 2, ..., n
o Li – lucro em milhares de USD da empresa i, i =1, 2, ..., n
o Fi – percentagem de mulheres na região i, i = Madeira, Açores, Norte, Centro, Alentejo
e Algarve
o Pi – nº de partidos políticos existente no país i, i = RU, Portugal e Espanha
Critérios:
Natureza: Escala de medição: Disponibilidade:
- Discretas - Escala de rácio - Dados seccionais
- Numéricas /Quantitativas
- Contínuas - Escala de intervalo - Dados ou séries
- Ordinal temporais
- Categóricas/Qualitativas
- Nominal - Dados longitudinais
4
o Variáveis numéricas ou quantitativas: variáveis ou dados que são expressos em
“números” com significado;
o Variáveis quantitativas discretas: são variáveis que assumem valores inteiros e o

conjunto de valores que podem assumir é relativamente pequeno (finito). São variáveis
que resultam de uma contagem. X - nº de vezes que o indivíduo i pratica desporto;
o Variáveis quantitativas contínuas: são variáveis que podem assumir qualquer valor real.
São expressas numa unidade de medida: gramas, segundos, metros, etc.
o Variáveis qualitativas ou categóricas: são variáveis que se referem a atributos não

mensuráveis e não se podem traduzir em “números” com significado;
5
Escala de medição:
o Variáveis categóricas nominais – não é possível estabelecer uma ordem natural nos
dados. Não é possível ordená-los.
Xi – cor dos olhos do aluno i, i = 1, ..., 9
Azul, castanho, castanho, verde, castanho, castanho, castanho, castanho, castanho,
azul.
o Variáveis categóricas ordinais – existe uma ordem natural nos dados. Escala de Likert
1 a 10.
Em relação à gestão da pandemia do COVID, indique o seu grau de satisfação com
a gestão do governo: 1 (atuação muito insatisfatória) a 8 (atuação muito satisfatória):
1 2 3 4 5 6 7 8 NA
6
o Variáveis quantitativas expressas em escala de intervalo – o “zero” é uma convenção
e não significa ausência de atributo. Não se pode estabelecer relações (rácios) entre os
valores da escala com significado.
Exemplo: Escala de acidez do PH, escalas de temperatura (termotérmicas)

expressa em graus Celcius ou Fahrenheit
o Variáveis quantitativas expressas em escala de rácio – o “zero” não é uma convenção,

significa mesmo ausência de um atributo num indivíduo. Podem-se estabelecer relações
(rácios) entre os valores da escala com significado.
7
Disponibilidade de dados:
o Está relacionado com o período de tempo a que se referem os dados. Se os dados se

referem a um único período de tempo temos dados seccionais – a variabilidade dos
dados é devida a diferenças entre os indivíduos.
o Séries temporais – referem-se a um único indivíduo e são colecionados para vários

períodos de tempo. Taxa de desemprego em Portugal entre 1980 e 2020 – temos um
único indivíduo e a variabilidade dos dados é intra-indivíduo, ao longo do tempo. Vamos
representar as variáveis em séries temporais com o índice t. Exemplo: Xt – taxa de
desemprego em Portugal no ano t, t = 2000, 200, ..., 2020
o Séries longitudinais – dados observados para vários indivíduos ao longo do tempo.

Temos variabilidade entre os indivíduos e ao longo do tempo para os mesmos indivíduos.
8
Exercício:
Considere os seguintes dados:
Tabela A
9
Tabela B
Número de funcionários da Companhia X, por sexo, 2000-05
Funcionários
Sexo
Ano Total Feminino Masculino
2000 17 0 17
2001 21 3 18
2002 25 8 17
2003 34 12 22
2004 44 15 29
2005 52 17 35
Fonte: Relatório da Companhia X
a) Identificar para cada exemplo, os indivíduos, a dimensão da amostra, cada uma das
variáveis presentes em cada tabela A e B.
b) Classificar as variáveis presentes nas tabelas A e B usando os 3 critérios anteriores.
c) Dê exemplos de outras variáveis, para a tabela A e B, de forma a que tenhamos um
exemplo de cada tipo de variável (sempre que possível) de acordo com os 3 critérios de
variáveis.
10
Primeiro tratamento estatístico da informação
 Criação de tabelas e gráficos para representar as “colunas” das tabelas A e B.
 A escolha das tabelas e gráficos depende do tipo de variáveis.
Variáveis categóricas NOMINAIS

 Construção de tabelas de frequência absoluta (FAS) e relativa (FRS) simples
Xi – cor dos olhos do aluno i, i = 1, ..., 9
Azul, castanho, castanho, verde, castanho, castanho, castanho, castanho, azul.
Categorias (Xj) Nº de alunos (FASj)

Azul 2
Castanho 6
Verde 1
n=9
11
A ordem das categorias é arbitrária – podíamos escolher qualquer ordem da FASj –
frequência absoluta simples da categoria j, número de elementos da amostra que têm a
característica Xj.
Representação em diagrama de barras ou diagrama circular:
 Diagrama de barras verticais
12
 Diagrama circular
 Diagrama de pareto
13
Variáveis categóricas ORDINAIS
Construção de tabelas de frequência absoluta (FAS) e relativa (FRS) simples

Xi – satisfação com o produto A numa escala de 1 a 5 (máximo) atribuída pelo aluno i, i =
1, ..., 9
Categorias (Xj) Nº de alunos

(FASj)
1, 3, 3, 3, 4, 5, 5, 5, 5
1 1
3 3
4 1
5 4
14
 Diagrama de barras verticais
 Diagrama circular
Satisfação com o produto A
1 3 4 5
O Diagrama de pareto não faz sentido falar!
15
Variáveis numéricas ou quantitativas – séries temporais
 Gráfico em linha
16
Variáveis numéricas ou quantitativas – dados seccionais
 Dados discretos
Exemplo: Xi – nº de vezes que o aluno i pratica desporto por semana, n = 10
0, 0, 0, 1, 2, 2, 2, 2, 6, 7
Xj FASj FRSj FAAj FRAj

0 3 30% 3 30%
1 1 10% 4 40%
2 4 40% 8 80%
6 1 10% 9 90%
7 1 10% 10 100%
10 100%
FASj – frequência absoluta simples da categoria j

FRSj – frequência relativa simples da categoria j
FAAj – frequência absoluta acumulada na categoria j – nº de indivíduos com valor menor ou igual a Xj
FRAj – frequência relativa acumulada na categoria j – proporção de indivíduos com valor menor ou igual
a Xj
17
o Diagrama de barras
18
 Dados contínuos
Xi – peso em kg do aluno i, i = 1, 2, ..., 12
45,9 47,9 49,5 55,3 59,9 69,4 74,3 74,3 76,4 84,8 89,9 97,9
Os valores variam muito e não faz sentido elaborar uma tabela de frequências
diretamente. Vamos ter que criar classes, ou intervalos de classe para esses dados.
Como criar as classes?

1. Determinar o número de classes - C - ou intervalos de classe para os dados. Existem
muitas regras. Vamos usar a regra do programa Excel:
C = 120,5 = 3,46 ≈ 4 Regra: C = n 0,5
2. Determinar a amplitude dos dados: (Xmáx – Xmín) / C = (97,9 – 45,9) / 4 = 52,0 / 4 ≈ 13
3. Escolha do limite inferior: ≤ Xmín
19
Tabela de frequências:
Classes FASj FRSj FRA

[45,9 – 58,9[ 4 33,3% 33,3%
[58,9 – 71,9[ 2 16,6% 50,0%
[71,9 – 84,9[ 4 33,3% 83,3%
[84,9 – 97,9[ 2 16,6% 100,0%
O histograma pode ser representado com FASj ou com FRSj:
20
Reduzindo o nº de classes: C = 3
Aumentando o nº de classes: C = 6
21
Representado as frequências acumuladas – FRAj – obtemos a OGIVA
22
Forma de uma distribuição
 Distribuições simétricas – o peso das caudas é aproximadamente igual
23
 Distribuições assimétricas – quando uma das caudas é bastante proeminente:
o Distribuição enviesada à esquerda ou negativamente enviesada;
o Distribuição enviesada à direita ou positivamente enviesada;
Exemplo: idade numa sociedade envelhecida
Exemplo: rendimento das famílias; dimensão das

empresas
24
Diagrama de caule e folhas
Xi – peso em kg do aluno i, i = 1, 2, ...12

Cada folha: 1 dígito; cada caule: 1 ou mais dígitos
45.9 46
47.9 48
49.5 50 4 6 8
55.3 55
5 0 5
59.9 60
6 0 9
69.4 69
74.3 74
7 4 4 6
74.3 74 8 5
76.4 76 9 0 8
84.8 85
89.9 90
97.9 98
25
Medidas de localização
Média
central Mediana
Moda
Medidas de
localização
ex.:
percentil 5
não central
Percentil
(caudas)
ex.:
percentil 95
26
Média aritmética
 Média aritmética – é a soma de todos os valores a dividir pela dimensão da amostra.
∑ 𝑛
𝑋𝑖
𝑋̅ = 𝑖=1
𝑛
 Se os dados estão classificados, isto é, temos as tabelas de frequência absoluta e/ou

relativa da variável, então é mais fácil, usar:
𝑘
∑𝑘𝑗=1 𝑋𝑗 . 𝐹𝐴𝑆𝑗
𝑋̅ = = ∑ 𝑋𝑗 . 𝐹𝑅𝑆𝑗
𝑛
𝑗=1
27
Nos dados contínuos, quando se conhece apenas as tabelas de frequências, e
pretendemos calcular a média aritmética aproximada, então,
Xj = ponto médio do intervalo de classe
[a, b[ ponto médio = (a + b) / 2
Vantagens:
o É muito fácil calcular e compreender;
o Utiliza a informação de todos os elementos da amostra. Todos contribuem.
Desvantagens:
o É muito sensível a valores extremos ou outliers. A média varia muito com a inclusão de
um valor extremo da variável.
28
Mediana
A mediana define-se como o valor da amostra que tem 50% de observações superiores e
50% de observações inferiores. Supondo os valores ordenados na amostra, então:
o Se a dimensão da amostra for ímpar, a mediana é o valor central correspondente à

posição 0.5 (n+1);
o Se a dimensão de amostra for par a mediana corresponde à média dos dois valores
centrais, isto é, (Xn/2 + Xn/2+1) / 2.
2, 2, 2, 7, 8, 9, 9 n = 7, Mediana = X 0.5*(7+1) = X4 = 7
Mediana = 7
1, 4, 4, 5, 6, 7, 7, 7
Mediana = (5 + 6) / 2 =
n = 8, Mediana = (X8/2 + X8/2+1) / 2 = (X4 + X5) / 2
5,5
29
Vantagens: É muito robusta a valores extremos.
Desvantagens: Não utiliza a informação de todos os elementos da amostra apenas de um

ou de dois.
30
Moda
É o valor que se repete mais vezes na amostra, isto é, com maior frequência, maior “pico”.
 Pode não existir – distribuição amodal;
 Pode existir mais de uma moda – distribuição bimodal, trimodal;
 Não é afetada por valores extremos;
Nos dados contínuos, só vamos identificar a classe modal por inspeção visual.
31
Síntese
Dados quantitativos Dados qualitativos

discretos contínuos nominais ordinais
Média   
Mediana    
Moda    
32
Percentil
O conceito de percentil, consiste em dividir a amostra (n grande) em 100 partes iguais. O

percentil
𝑃 = 𝑋𝑃/100 ∗ (𝑛+1)
Exemplo: Sendo n = 40:
 P25 = X0.25 * (40+1) = X10.25 = X10 + 0.25 * (X11 – X10)

 P75 = X0.75 * (40+1) = X30.75 = X30 + 0.75 * (X31 – X30)
o O percentil 1 do rendimento corresponde ao rendimento para o qual 1% da população

aufere esse valor ou menos.
o O percentil 95 do rendimento consiste no rendimento máximo para o qual 95% da
população aufere, ou então, é o rendimento mínimo para os 5%, mas ricos de um país.
o A mediana também é conhecida como percentil 50 ou quartil 2.
33
Podemos definir qualquer percentil, sendo os mais comuns o percentil 1, 5, e 10 na cauda
esquerda da distribuição e o percentil 90, 95 e 99 na cauda da direita da direita;
Percentil 25 Quartil 1
Percentil 50 Quartil 2 = Mediana
Percentil 75 Quartil 3
Percentil 100 = Xmáx Quartil 4
Percentil 20 Quantil 1
Percentil 10 Decil 1
Percentil 20 Decil 2 = Quantil 1
Percentil 30 Decil 3
Percentil 40 Decil 4 = Quantil 2
....
34
Medidas de variabilidade – dados numéricos
Medidas absolutas Medidas relativas

não permitem comparar a dispersão entre amostras permitem comparar a dispersão entre
diferentes amostras diferentes
Intervalo de variação
Coeficiente de variação
Intervalo interquartil
Variância
Desvio-padrão
35
Intervalo de variação
 O intervalo de variação é a diferença entre o valor máximo e mínimo da amostra:
IV(X) = Xmáx – Xmín
IV(X) = 14 – 1 = 13
Desvantagens:
o É muito sensível a valores extremos:
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5 IV (X) = 5 – 1 = 4
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 120 IV (X) = 120 – 1 = 119

36
o não usa a informação de toda a amostra;
o ignora a distribuição da amostra:
IV(X) = 12 – 7 = 5
37
Intervalo interquartil
 O Intervalo interquartil é a diferença entre o quartil 3 (percentil 75) e o quartil 1

(percentil 25).
IIQ (X) = Q3 (X) – Q1(X) = P75 – P25
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5
Exemplo:
Sendo n = 25,
P75 = X 75/100 * (n+1) = X75/100 * (25+1) = X 0.75 * 26 = X19.5 = (X19 + X20) / 2 = 3
P25 = X 25/100 * (n+1) = X25/100 * (25+1) = X 0.25 * 26 = X6.5 = (X6 + X7) / 2 = 1
IQQ (X) = 3 – 1 = 2
Não usa toda a informação da amostra

38
Representação gráfica: Diagrama de extremos e quartis – caixa de bigodes
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5
n = 25
Xmín = 1
Xmáx = 5
Quartil 1 = P25 = 2
Quartil 2 = P50 = 3
Quartil 3 = P75 = 4
39
Variância
 É a média aritmética do quadrado dos desvios em relação à média.

 O que é um desvio? É a diferença entre cada observação e a média.
̅
𝑫𝒆𝒔𝒗𝒊𝒐 𝒅𝒆 𝑿𝒊 = 𝑿𝒊 − 𝑿
∑𝑛𝑖=1 𝐷𝑒𝑠𝑣𝑖𝑜 2 𝑑𝑒 𝑋𝑖 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

𝑉𝑎𝑟(𝑋) = =
𝑛 𝑛
 Se os dados estão classificados, isto é, temos as tabelas de frequência absoluta e/ou

relativa da variável, então é mais fácil, usar:
2 𝐾
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ∑𝐾 ̅
𝑗=1 𝐹𝐴𝑆𝑗 (𝑋𝑗 − 𝑋 ) 2
𝑉𝑎𝑟(𝑋) = = = ∑ 𝐹𝑅𝑆𝑗 (𝑋𝑗 − 𝑋̅)
𝑛 𝑛
𝑗=1
 Nos dados contínuos classificados usa-se o ponto médio de classe para o valor de Xj.
40
FASj FRSj
Exemplo:
1 3 60%
n=5 10 1 20%
1, 1, 1, 10, 20 20 1 20%
1º passo – cálculo da média:

1 + 1 + 1 + 10 + 20
𝑋̅ = = 6,6
5
2º passo – cálculo da variância:
(1 − 6,6)2 + (1 − 6,6)2 + (1 − 6,6)2 + (10 − 6,6)2 + (20 − 6,6)2 285,2

𝑉𝑎𝑟(𝑋) = = = 57,04
5 5
3 × (1 − 6,6)2 + 1 × (10 − 6,6)2 + 1 × (20 − 6,6)2

𝑉𝑎𝑟(𝑋) = = 57,04
5
𝑉𝑎𝑟(𝑋) = 0,6 × (1 − 6,6)2 + 0,2 × (10 − 6,6)2 + 0,2 × (20 − 6,6)2 = 57,04
41
Desvio-padrão
A variância está expressa em “unidades ao quadrado”, ou seja, se a variável estiver

expressa em metros, a variância aparece em “metros quadrados”. Para se “voltar” à unidade
de medida original, usa-se o Desvio-padrão que corresponde à raiz quadrada da variância.
𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 (𝑋) = √𝑉𝑎𝑟(𝑋)
Outra forma de calcular a Variância:
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ∑𝑛𝑖=1(𝑋𝑖2 + 𝑋̅ 2 − 2𝑋𝑖 𝑋̅)

𝑉𝑎𝑟(𝑋) = = =
𝑛 𝑛
∑𝑛𝑖=1 𝑋𝑖2 + ∑𝑛𝑖=1 𝑋̅ 2 − ∑𝑛𝑖=1 2𝑋𝑖 ̅𝑋 ∑𝑛𝑖=1 𝑋𝑖2 ∑𝑛𝑖=1 𝑋𝑖2
= = + 𝑋̅ − 2𝑋̅ 𝑋̅ =
2
− 𝑋̅ 2
𝑛 𝑛 𝑛
42
Notar que:
∑𝑛 ̅
𝑖=1 𝑋 𝑛𝑋̅
 = = 𝑋̅
𝑛 𝑛
∑𝑛 ̅
𝑖=1 2𝑋𝑖 𝑋
̅ .∑𝑛
2𝑋 𝑛
𝑖=1 ∑𝑖=1 𝑋𝑖
 = = 2𝑋̅𝑋̅ = 2𝑋̅ 2
𝑛 𝑛
 ∑𝑛𝑖=1 𝑎 = 𝑎 + 𝑎 + 𝑎 … . +𝑎 = 𝑛 ∗ 𝑎
Exemplo:
∑𝑛 2
𝑖=1 𝑋𝑖 12 +12 +12 +102 +202 503
 = = = 100,6
𝑛 5 5
 𝑋̅ 2 = 6,6 × 6,6 = 43,56
 𝑉𝑎𝑟(𝑋) = 100,6 − 43,56 = 57, 04
43
Coeficiente de variação
 O Coeficiente de Variação (CV) mede a importância do desvio-padrão em relação à

média de X.
CV (X) = Desvio – padrão de (X) / Média de (X) * 100
44
Relação entre duas variáveis numéricas
Quando pretendemos estudar a relação entre duas variáveis numéricas, o primeiro passo
consiste em representar os dados num gráfico denominado – GRÁFICO DE DISPERSÃO.
Exemplo:
Peso (gramas) Custo

(cêntimos)
25 120
35 135
56 150
69 160
86 170
45
Positiva ou
direta
Existe
Relação linear
Negativa ou
entre duas
inversa
variáveis
Não existe
Existe relação, é Existe relação, é Não existe relação.

positiva ou direta. negativa ou inversa.
46
Às vezes, a inspeção visual não permite tirar conclusões claras entre as duas variáveis.
Teremos então de quantificar a relação entre as variáveis e calcular a covariância entre as
variáveis X e Y.
A Covariância entre X e Y é a média do produto do desvio de X pelo desvio de Y.
𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑋𝑖 = 𝑋𝑖 − 𝑋̅
𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑌𝑖 = 𝑌𝑖 − 𝑌̅
∑𝑛𝑖=1(𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑋𝑖 )(𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑌𝑖 ) ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )(𝑌𝑖 − 𝑌̅)

𝐶𝑜𝑣 (𝑋, 𝑌) = =
𝑛 𝑛
Cálculo da Cov (X, Y):
1º passo – cálculo das médias de X e de Y:
25 + 35 + 56 + 69 + 86
𝑋̅ = = 54,2
5
47
120 + 135 + 150 + 160 + 170
𝑌̅ = = 147
5
2º passo – cálculo dos desvios de X e Y e da Covariância
𝐶𝑜𝑣(𝑋, 𝑌) =
(25 − 54,2)(120 − 147) + (35 − 54,2)(135 − 147) + (56 − 54,2)(150 − 147) + (69 − 54,2)(160 − 147) + (86 − 54,2)(170 − 147)
=
5
= 390 > 0 𝑅𝑒𝑙𝑎çã𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑜𝑢 𝑑𝑖𝑟𝑒𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒 𝑌. 𝐸𝑚 𝑚é𝑑𝑖𝑎 𝑞𝑢𝑎𝑛𝑑𝑜 𝑋 𝑎𝑢𝑚𝑒𝑛𝑡𝑎, 𝑌 𝑡𝑎𝑚𝑏é𝑚 𝑎𝑢𝑚𝑒𝑛𝑡𝑎
Fórmula alternativa da covariância:
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖
𝐶𝑜𝑣 (𝑋, 𝑌) = − 𝑋̅. 𝑌̅
𝑛
48
Covariância - interpretação
Positiva ou
Cov (X, Y) > 0
direta
Existe
Relação Negativa ou
linear entre Cov (X, Y) < 0
inversa
duas
variáveis
Não existe Cov (X, Y) = 0
Intensidade da relação entre as variáveis
A covariância não permite saber se a relação entre as variáveis é muito/pouco intensa. Se

a relação for muito intensa pode-se prever uma variável em função da outra. Para tal temos
de calcular o coeficiente de correlação de Pearson (𝝆) entre duas variáveis.
𝐶𝑜𝑣(𝑋, 𝑌)
𝜌𝑋,𝑌 =
𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 × 𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑌
49
−1 ≤ 𝜌𝑋,𝑌 ≤ 1
= 1, correlação perfeita os pontos formam uma reta com

positiva declive positivo
Correlação
Correlação linear entre X e Y
positiva ]0,8; 1[ - muito forte positiva

]0, 1[, correlação positiva ]0,5; 0,7] - considerável positiva
imperfeita
]0; 0,3] - fraca positiva
Correlação
=0
nula
]-1; -0,8[ - muito forte negativa

]-1, 0[ - correlação [-0,7; -0,5] - considerável negativa
negativa imperfeita
]-0,3; 0] - fraca negativa
Correlação
negativa
= -1, correlação perfeita os pontos formam uma reta com
negativa declive negativo
50
Jogos na internet: guess the correlation.
51

EEEA Cap.2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

EEEA Cap.2

Enviado por

Direitos autorais:

Formatos disponíveis

2.

Tratamento de dados [Capítulo 2]

 População versus amostra

- Processos de amostragem – formas de escolher/selecionar os indivíduos da população

- Existem vários processos de amostragem – falados na aula anterior

o Variáveis quantitativas discretas: são variáveis que assumem valores inteiros e o

o Variáveis qualitativas ou categóricas: são variáveis que se referem a atributos não

Exemplo: Escala de acidez do PH, escalas de temperatura (termotérmicas)

o Variáveis quantitativas expressas em escala de rácio – o “zero” não é uma convenção,

o Está relacionado com o período de tempo a que se referem os dados. Se os dados se

o Séries temporais – referem-se a um único indivíduo e são colecionados para vários

o Séries longitudinais – dados observados para vários indivíduos ao longo do tempo.

Considere os seguintes dados:

Variáveis categóricas NOMINAIS

Azul, castanho, castanho, verde, castanho, castanho, castanho, castanho, azul.

Categorias (Xj) Nº de alunos (FASj)

 Diagrama de barras verticais

Construção de tabelas de frequência absoluta (FAS) e relativa (FRS) simples

Categorias (Xj) Nº de alunos

O Diagrama de pareto não faz sentido falar!

Xj FASj FRSj FAAj FRAj

FASj – frequência absoluta simples da categoria j

Como criar as classes?

C = 120,5 = 3,46 ≈ 4 Regra: C = n 0,5

2. Determinar a amplitude dos dados: (Xmáx – Xmín) / C = (97,9 – 45,9) / 4 = 52,0 / 4 ≈ 13

3. Escolha do limite inferior: ≤ Xmín

Classes FASj FRSj FRA

O histograma pode ser representado com FASj ou com FRSj:

 Distribuições simétricas – o peso das caudas é aproximadamente igual

Exemplo: idade numa sociedade envelhecida

Exemplo: rendimento das famílias; dimensão das

Xi – peso em kg do aluno i, i = 1, 2, ...12

 Média aritmética – é a soma de todos os valores a dividir pela dimensão da amostra.

 Se os dados estão classificados, isto é, temos as tabelas de frequência absoluta e/ou

Xj = ponto médio do intervalo de classe

[a, b[ ponto médio = (a + b) / 2

o Se a dimensão da amostra for ímpar, a mediana é o valor central correspondente à

Desvantagens: Não utiliza a informação de todos os elementos da amostra apenas de um

Dados quantitativos Dados qualitativos

O conceito de percentil, consiste em dividir a amostra (n grande) em 100 partes iguais. O

Exemplo: Sendo n = 40:

 P25 = X0.25 * (40+1) = X10.25 = X10 + 0.25 * (X11 – X10)

o O percentil 1 do rendimento corresponde ao rendimento para o qual 1% da população

Medidas absolutas Medidas relativas

 O intervalo de variação é a diferença entre o valor máximo e mínimo da amostra:

IV(X) = Xmáx – Xmín

o É muito sensível a valores extremos:

1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5 IV (X) = 5 – 1 = 4

1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 120 IV (X) = 120 – 1 = 119

 O Intervalo interquartil é a diferença entre o quartil 3 (percentil 75) e o quartil 1

IIQ (X) = Q3 (X) – Q1(X) = P75 – P25

P75 = X 75/100 * (n+1) = X75/100 * (25+1) = X 0.75 * 26 = X19.5 = (X19 + X20) / 2 = 3

P25 = X 25/100 * (n+1) = X25/100 * (25+1) = X 0.25 * 26 = X6.5 = (X6 + X7) / 2 = 1

Não usa toda a informação da amostra

 É a média aritmética do quadrado dos desvios em relação à média.

∑𝑛𝑖=1 𝐷𝑒𝑠𝑣𝑖𝑜 2 𝑑𝑒 𝑋𝑖 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

 Se os dados estão classificados, isto é, temos as tabelas de frequência absoluta e/ou

1º passo – cálculo da média:

2º passo – cálculo da variância:

(1 − 6,6)2 + (1 − 6,6)2 + (1 − 6,6)2 + (10 − 6,6)2 + (20 − 6,6)2 285,2

3 × (1 − 6,6)2 + 1 × (10 − 6,6)2 + 1 × (20 − 6,6)2

A variância está expressa em “unidades ao quadrado”, ou seja, se a variável estiver

𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 (𝑋) = √𝑉𝑎𝑟(𝑋)