Escolar Documentos
Profissional Documentos
Cultura Documentos
Conceitos principais
População:
o conjunto de TODOS os INDIVÍDUOS que queremos estudar;
o dimensão da população – N = ?;
o característica da população chama-se PARÂMETRO.
1
Amostra:
o conjunto dos INDIVÍDUOS que queremos estudar;
o dimensão da amostra – n = ?;
o característica da amostra chama-se ESTATÍSTICA.
Dimensão
População (N) Amostra (n)
infinita finita
finita
Que INDIVÍDUOS que fazem parte da população? Ex: Empresas, pessoas, países, regiões,
etc.
2
Como se escolhem os indivíduos que fazem parte da amostra?
3
Classificação das variáveis
O que é uma variável ou um dado? É uma característica ou atributo do indivíduo que
queremos estudar. Vamos representar a variável por uma letra maiúscula:
o Ri – rendimento mensal em euros da família i, i = 1, 2, ..., n
o Li – lucro em milhares de USD da empresa i, i =1, 2, ..., n
o Fi – percentagem de mulheres na região i, i = Madeira, Açores, Norte, Centro, Alentejo
e Algarve
o Pi – nº de partidos políticos existente no país i, i = RU, Portugal e Espanha
Critérios:
Natureza: Escala de medição: Disponibilidade:
- Discretas - Escala de rácio - Dados seccionais
- Numéricas /Quantitativas
- Contínuas - Escala de intervalo - Dados ou séries
- Ordinal temporais
- Categóricas/Qualitativas
- Nominal - Dados longitudinais
4
o Variáveis numéricas ou quantitativas: variáveis ou dados que são expressos em
“números” com significado;
o Variáveis quantitativas contínuas: são variáveis que podem assumir qualquer valor real.
São expressas numa unidade de medida: gramas, segundos, metros, etc.
5
Escala de medição:
o Variáveis categóricas nominais – não é possível estabelecer uma ordem natural nos
dados. Não é possível ordená-los.
Xi – cor dos olhos do aluno i, i = 1, ..., 9
Azul, castanho, castanho, verde, castanho, castanho, castanho, castanho, castanho,
azul.
o Variáveis categóricas ordinais – existe uma ordem natural nos dados. Escala de Likert
1 a 10.
Em relação à gestão da pandemia do COVID, indique o seu grau de satisfação com
a gestão do governo: 1 (atuação muito insatisfatória) a 8 (atuação muito satisfatória):
1 2 3 4 5 6 7 8 NA
6
o Variáveis quantitativas expressas em escala de intervalo – o “zero” é uma convenção
e não significa ausência de atributo. Não se pode estabelecer relações (rácios) entre os
valores da escala com significado.
7
Disponibilidade de dados:
8
Exercício:
Tabela A
9
Tabela B
Número de funcionários da Companhia X, por sexo, 2000-05
Funcionários
Sexo
Ano Total Feminino Masculino
2000 17 0 17
2001 21 3 18
2002 25 8 17
2003 34 12 22
2004 44 15 29
2005 52 17 35
Fonte: Relatório da Companhia X
a) Identificar para cada exemplo, os indivíduos, a dimensão da amostra, cada uma das
variáveis presentes em cada tabela A e B.
b) Classificar as variáveis presentes nas tabelas A e B usando os 3 critérios anteriores.
c) Dê exemplos de outras variáveis, para a tabela A e B, de forma a que tenhamos um
exemplo de cada tipo de variável (sempre que possível) de acordo com os 3 critérios de
variáveis.
10
Primeiro tratamento estatístico da informação
Criação de tabelas e gráficos para representar as “colunas” das tabelas A e B.
A escolha das tabelas e gráficos depende do tipo de variáveis.
11
A ordem das categorias é arbitrária – podíamos escolher qualquer ordem da FASj –
frequência absoluta simples da categoria j, número de elementos da amostra que têm a
característica Xj.
Representação em diagrama de barras ou diagrama circular:
12
Diagrama circular
Diagrama de pareto
13
Variáveis categóricas ORDINAIS
14
Diagrama de barras verticais
Diagrama circular
Satisfação com o produto A
1 3 4 5
15
Variáveis numéricas ou quantitativas – séries temporais
Gráfico em linha
16
Variáveis numéricas ou quantitativas – dados seccionais
Dados discretos
Exemplo: Xi – nº de vezes que o aluno i pratica desporto por semana, n = 10
0, 0, 0, 1, 2, 2, 2, 2, 6, 7
17
o Diagrama de barras
18
Dados contínuos
Xi – peso em kg do aluno i, i = 1, 2, ..., 12
45,9 47,9 49,5 55,3 59,9 69,4 74,3 74,3 76,4 84,8 89,9 97,9
Os valores variam muito e não faz sentido elaborar uma tabela de frequências
diretamente. Vamos ter que criar classes, ou intervalos de classe para esses dados.
19
Tabela de frequências:
20
Reduzindo o nº de classes: C = 3
Aumentando o nº de classes: C = 6
21
Representado as frequências acumuladas – FRAj – obtemos a OGIVA
22
Forma de uma distribuição
23
Distribuições assimétricas – quando uma das caudas é bastante proeminente:
o Distribuição enviesada à esquerda ou negativamente enviesada;
o Distribuição enviesada à direita ou positivamente enviesada;
45.9 46
47.9 48
49.5 50 4 6 8
55.3 55
5 0 5
59.9 60
6 0 9
69.4 69
74.3 74
7 4 4 6
74.3 74 8 5
76.4 76 9 0 8
84.8 85
89.9 90
97.9 98
25
Medidas de localização
Média
central Mediana
Moda
Medidas de
localização
ex.:
percentil 5
não central
Percentil
(caudas)
ex.:
percentil 95
26
Média aritmética
∑ 𝑛
𝑋𝑖
𝑋̅ = 𝑖=1
𝑛
𝑘
∑𝑘𝑗=1 𝑋𝑗 . 𝐹𝐴𝑆𝑗
𝑋̅ = = ∑ 𝑋𝑗 . 𝐹𝑅𝑆𝑗
𝑛
𝑗=1
27
Nos dados contínuos, quando se conhece apenas as tabelas de frequências, e
pretendemos calcular a média aritmética aproximada, então,
Vantagens:
o É muito fácil calcular e compreender;
o Utiliza a informação de todos os elementos da amostra. Todos contribuem.
Desvantagens:
o É muito sensível a valores extremos ou outliers. A média varia muito com a inclusão de
um valor extremo da variável.
28
Mediana
A mediana define-se como o valor da amostra que tem 50% de observações superiores e
50% de observações inferiores. Supondo os valores ordenados na amostra, então:
2, 2, 2, 7, 8, 9, 9 n = 7, Mediana = X 0.5*(7+1) = X4 = 7
Mediana = 7
1, 4, 4, 5, 6, 7, 7, 7
Mediana = (5 + 6) / 2 =
n = 8, Mediana = (X8/2 + X8/2+1) / 2 = (X4 + X5) / 2
5,5
29
Vantagens: É muito robusta a valores extremos.
30
Moda
É o valor que se repete mais vezes na amostra, isto é, com maior frequência, maior “pico”.
Pode não existir – distribuição amodal;
Pode existir mais de uma moda – distribuição bimodal, trimodal;
Não é afetada por valores extremos;
Nos dados contínuos, só vamos identificar a classe modal por inspeção visual.
31
Síntese
32
Percentil
𝑃 = 𝑋𝑃/100 ∗ (𝑛+1)
33
Podemos definir qualquer percentil, sendo os mais comuns o percentil 1, 5, e 10 na cauda
esquerda da distribuição e o percentil 90, 95 e 99 na cauda da direita da direita;
Percentil 25 Quartil 1
Percentil 50 Quartil 2 = Mediana
Percentil 75 Quartil 3
Percentil 100 = Xmáx Quartil 4
Percentil 20 Quantil 1
Percentil 40 Quantil 2
Percentil 60 Quantil 3
Percentil 80 Quantil 4
Percentil 100 Quantil 5
Percentil 10 Decil 1
Percentil 20 Decil 2 = Quantil 1
Percentil 30 Decil 3
Percentil 40 Decil 4 = Quantil 2
....
34
Medidas de variabilidade – dados numéricos
Intervalo de variação
Coeficiente de variação
Intervalo interquartil
Variância
Desvio-padrão
35
Intervalo de variação
IV(X) = 14 – 1 = 13
Desvantagens:
IV(X) = 12 – 7 = 5
37
Intervalo interquartil
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5
Exemplo:
Sendo n = 25,
IQQ (X) = 3 – 1 = 2
1,1,1,1,1,1,1,1,1,1,1, 2, 2, 2, 2, 2, 2, 2,2, 3, 3, 3, 3, 4, 5
n = 25
Xmín = 1
Xmáx = 5
Quartil 1 = P25 = 2
Quartil 2 = P50 = 3
Quartil 3 = P75 = 4
39
Variância
̅
𝑫𝒆𝒔𝒗𝒊𝒐 𝒅𝒆 𝑿𝒊 = 𝑿𝒊 − 𝑿
2 𝐾
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ∑𝐾 ̅
𝑗=1 𝐹𝐴𝑆𝑗 (𝑋𝑗 − 𝑋 ) 2
𝑉𝑎𝑟(𝑋) = = = ∑ 𝐹𝑅𝑆𝑗 (𝑋𝑗 − 𝑋̅)
𝑛 𝑛
𝑗=1
Nos dados contínuos classificados usa-se o ponto médio de classe para o valor de Xj.
40
FASj FRSj
Exemplo:
1 3 60%
n=5 10 1 20%
1, 1, 1, 10, 20 20 1 20%
𝑉𝑎𝑟(𝑋) = 0,6 × (1 − 6,6)2 + 0,2 × (10 − 6,6)2 + 0,2 × (20 − 6,6)2 = 57,04
41
Desvio-padrão
42
Notar que:
∑𝑛 ̅
𝑖=1 𝑋 𝑛𝑋̅
= = 𝑋̅
𝑛 𝑛
∑𝑛 ̅
𝑖=1 2𝑋𝑖 𝑋
̅ .∑𝑛
2𝑋 𝑛
𝑖=1 ∑𝑖=1 𝑋𝑖
= = 2𝑋̅𝑋̅ = 2𝑋̅ 2
𝑛 𝑛
∑𝑛𝑖=1 𝑎 = 𝑎 + 𝑎 + 𝑎 … . +𝑎 = 𝑛 ∗ 𝑎
Exemplo:
∑𝑛 2
𝑖=1 𝑋𝑖 12 +12 +12 +102 +202 503
= = = 100,6
𝑛 5 5
43
Coeficiente de variação
44
Relação entre duas variáveis numéricas
Quando pretendemos estudar a relação entre duas variáveis numéricas, o primeiro passo
consiste em representar os dados num gráfico denominado – GRÁFICO DE DISPERSÃO.
Exemplo:
45
Positiva ou
direta
Existe
Relação linear
Negativa ou
entre duas
inversa
variáveis
Não existe
46
Às vezes, a inspeção visual não permite tirar conclusões claras entre as duas variáveis.
Teremos então de quantificar a relação entre as variáveis e calcular a covariância entre as
variáveis X e Y.
𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑋𝑖 = 𝑋𝑖 − 𝑋̅
𝐷𝑒𝑠𝑣𝑖𝑜 𝑑𝑒 𝑌𝑖 = 𝑌𝑖 − 𝑌̅
25 + 35 + 56 + 69 + 86
𝑋̅ = = 54,2
5
47
120 + 135 + 150 + 160 + 170
𝑌̅ = = 147
5
𝐶𝑜𝑣(𝑋, 𝑌) =
(25 − 54,2)(120 − 147) + (35 − 54,2)(135 − 147) + (56 − 54,2)(150 − 147) + (69 − 54,2)(160 − 147) + (86 − 54,2)(170 − 147)
=
5
= 390 > 0 𝑅𝑒𝑙𝑎çã𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑜𝑢 𝑑𝑖𝑟𝑒𝑡𝑎 𝑒𝑛𝑡𝑟𝑒 𝑋 𝑒 𝑌. 𝐸𝑚 𝑚é𝑑𝑖𝑎 𝑞𝑢𝑎𝑛𝑑𝑜 𝑋 𝑎𝑢𝑚𝑒𝑛𝑡𝑎, 𝑌 𝑡𝑎𝑚𝑏é𝑚 𝑎𝑢𝑚𝑒𝑛𝑡𝑎
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖
𝐶𝑜𝑣 (𝑋, 𝑌) = − 𝑋̅. 𝑌̅
𝑛
48
Covariância - interpretação
Positiva ou
Cov (X, Y) > 0
direta
Existe
Relação Negativa ou
linear entre Cov (X, Y) < 0
inversa
duas
variáveis
Não existe Cov (X, Y) = 0
𝐶𝑜𝑣(𝑋, 𝑌)
𝜌𝑋,𝑌 =
𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋 × 𝐷𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑌
49
−1 ≤ 𝜌𝑋,𝑌 ≤ 1
Correlação
=0
nula
50
Jogos na internet: guess the correlation.
51