Você está na página 1de 23

Variáveis numéricas contínuas ou discretas agrupadas

a) Histogramas
b) Polígonos de frequências
c) Diagrama de caule e folhas

a) Histogramas: é um gráfico de barras da distribuição de frequências, em que cada


barra corresponde a uma classe. As classes aparecem no eixo das abcissas (xx) enquanto
que as frequências aparecem no eixo das ordenadas (yy).
− Resulta do desenho de retângulos (adjacentes no caso de variáveis contínuas ou
discretas com dados em classes).
− Se as classes têm todas a mesma amplitude, então, a base das barras é igual à
amplitude e a sua altura é igual à frequência [relativa ou absoluta] que lhe está
associada.
− Se as classes tiverem amplitudes diferentes, as barras vão ter bases de tamanhos
diferentes [e iguais à respetiva densidade].
− Convenção: quando a amplitude das classes extremas não está definida [classes
abertas], atribui-se-lhes a mesma amplitude das classes adjacentes.

Exemplo:
Tabela de distribuição de frequências – peso das embalagens de arroz (em gramas)
Classes Limite Limite Ponto Frequências Freq. Abs. Frequências Freq. Rel.
inferior superior médio Absolutas Acumuladas Relativas Acumuladas
[975,980] 975 980 977.5 1 1 2% 2%
]980,985] 980 985 982.5 3 4 6% 8%
]985,990] 985 990 987.5 5 9 10% 18%
]990,995] 990 995 992.5 5 14 10% 28%
]995,1000] 995 1000 997.5 11 25 22% 50%
]1000,1005] 1000 1005 1002.5 8 33 16% 66%
]1005,1010] 1005 1010 1007.5 9 42 18% 84%
]1010,1015] 1010 1015 1012.5 4 46 8% 92%
]1015,1020] 1015 1020 1017.5 3 49 6% 98%
]1020,1025] 1020 1025 1022.5 1 50 2% 100%
Total 50 sem signif 1 sem signif

Acetatos de apoio a EACP | LCP + LRI |2021/2022 34


Histograma de frequências absolutas simples

Peso das embalagens de arroz

12 11

10 9
Frequeência absoluta

8
8

6 5 5
4
4 3 3

2 1 1

0] 5] 0] 5] 0] 5] 0] 5] 0] 5]
,98 ,98 ,99 ,99 100 100 101 101 102 102
75 80 85 90 95
, 0, 5, 0, 5, 0,
[9 ]9 ]9 ]9 ]9 00 00 01 01 02
]1 ]1 ]1 ]1 ]1
Peso (em gramas)

Histograma de frequências relativas simples

Peso das embalagens de arroz

25%
22%

20% 18%
Frequência relativa

16%
15%

10% 10%
10% 8%
6% 6%
5%
2% 2%

0%
]

0]

]
80

85

90

95

05

10

15

20

25
00
,9

,9

,9

,9

10

10

10

10

10
,1
75

80

85

90

0,

5,

0,

5,

0,
95
[9

]9

]9

]9

00

00

01

01

02
]9

]1

]1

]1

]1

]1

Peso (em gramas)

Acetatos de apoio a EACP | LCP + LRI |2021/2022 35


Histograma de frequências absolutas acumuladas

Peso das embalagens de arroz

60
Frequeência absoluta acumulada

49 50
50 46
42
40
33
30 25

20
14
9
10
4
1
0

0] 5] 0] 5] 0] 5] 0] 5] 0] 5]
,98 ,98 ,99 ,99 100 100 101 101 102 102
75 80 85 90 95
, 0, 5, 0, 5, 0,
[9 ]9 ]9 ]9 ]9 00 00 01 01 02
]1 ]1 ]1 ]1 ]1
Peso (em gramas)

Histograma de frequências relativas acumuladas

Peso das embalagens de arroz

98% 100%
100% 92%
90% 84%
Frequência relativa acumulada

80%
70% 66%

60%
50%
50%
40%
28%
30%
18%
20%
8%
10% 2%
0%
]

0]

]
80

85

90

95

05

10

15

20

25
00
,9

,9

,9

,9

10

10

10

10

10
,1
75

80

85

90

0,

5,

0,

5,

0,
95
[9

]9

]9

]9

00

00

01

01

02
]9

]1

]1

]1

]1

]1

Peso (em gramas)

Acetatos de apoio a EACP | LCP + LRI |2021/2022 36


Polígono de frequências:
− Resulta de unir sucessivamente, por segmentos de reta, os pontos médios dos topos
das barras. No fundo, a sua construção resulta da atribuição da frequência da classe
à marca da classe.
− Polígono de frequências simples representa a mesma informação que o histograma
de frequências simples: no polígono a frequência é representada pela ordenada de
um ponto cuja abcissa é o ponto médio da classe e no histograma a frequência é a
altura da barra.
− Para fechar o polígono é necessário criar uma classe adicional no início e no fim do
histograma. Estas classes devem ter frequência nula e a sua amplitude deve ser igual
à das classes adjacentes.

Polígono de frequências: Peso das embalagens de arroz

12

10
Frequência absoluta

8
freq. absoluta
simples no
6 ponto médio une ao ponto
da classe: 3 médio da
última classe
4
fictícia

0
977.5 982.5 987.5 992.5 997.5 1002.5 1007.5 1012.5 1017.5 1022.5
une ao ponto médio da Peso em gram as
primeira classe fictícia

Nota: no caso de polígonos de frequências acumuladas, as frequências são


representadas sobre os limites superiores das células – este procedimento justifica-se
pelo facto de tais frequências serem acumuladas justamente até àqueles limites.
No exemplo, a frequência acumulada relativa ao intervalo ]980, 985] é de 8% e
representa-se sobre o valor de 985 no eixo dos xx.

Acetatos de apoio a EACP | LCP + LRI |2021/2022 37


Polígono de frequências acumuladas: Peso das embalagens de
arroz
em 1025 acumula 100%
100%

90%
Frequência relativa acumulada (%)

80%

70%

60%

50% freq. acumulada


no limite
40% superior da
30% classe: 8%

20%

10%

0%
970 975 980 985 990 995 1000 1005 1010 1015 1020 1025 1030
Peso em gram as

Acetatos de apoio a EACP | LCP + LRI |2021/2022 38


c) Diagrama de caule-e-folhas (stem and leaf display)

Exemplo no caso de horários de transportes:

− Forma gráfica de organizar os números que mostra como os dados estão


distribuídos, ou seja, evidencia características como simetria, dispersão, distância
entre os valores, concentração, lacunas, etc. Mas nem sempre é apropriada ao tipo
de dados.

− Evidencia o valor maior, o mais pequeno, o mais comum, os outliers (números cujo
valor está fora do grupo principal)…

– Um diagrama de caule-e-folhas: mostra o último algarismo como a folha e os


primeiros algarismos do número como o caule.

Acetatos de apoio a EACP | LCP + LRI |2021/2022 39


– Normalmente usa números inteiros, nesse caso números com casas decimais são
arredondados para o próximo número inteiro.
– No lado esquerdo escrever os milhares, centenas, ou dezenas (todos os algarismos
menos o último). São o caule.
– Do lado direito do caule fazer um traço horizontal.
– Do lado direito do traço escrever as unidades. São as folhas.

Ex.: Pedidos diários online de certidões de registo criminal online [nº de pedidos/dia]

54 3 56 78 92 62 63 55 95 23
25 12 37 54 51 39 21 57 58 31
42 9 17 65 57 38 45 74 89 21
92 31 44 29 56 97 83 72 8 95
9 96 87 24 6 19 7 16 57 50

(1) Criar um caule e as respetivas folhas, separando as dezenas e as unidades por um


tracinho:
Caule| Folhas
0|3 9 8 9 6 7
1|2 7 9 6
2|3 5 1 1 9 4
3|7 9 1 8 1
4|2 5 4
5|4 6 5 4 1 7 8 7 6 7 0
6|2 3 5
7|8 4 2
8|9 3 7
9|2 5 2 7 5 6
Unidade do caule: dezenas (10)
Unidade da folha: unidades (1)

Acetatos de apoio a EACP | LCP + LRI |2021/2022 40


(2) Ordenar as folhas dentro de cada caule:

0|3 6 7 8 9 9
1|2 6 7 9
2|1 1 3 4 5 9
3|1 1 7 8 9
4|2 4 5
5|0 1 4 4 5 6 6 7 7 7 8
6|2 3 5
7|2 4 8
8|3 7 9
9|2 2 5 5 6 7
Unidade do caule: dezenas (10)
Unidade da folha: unidades (1)

 Bibliografia
Cap. 2 Describing data: graphical
Newbold, Paul, William L. Carlson, e Betty M. Thorne (2003). Statistics for business and economics. 5ª
edição, Prentice-Hall.
Cap. 5.1. Frequências Absolutas e relativas
Chaves, Cristina, Elisabete Maciel, Paulo Guimarães e José Carlos Ribeiro (2000), Instrumentos
Estatísticos de Apoio à Economia, McGraw-Hill

Acetatos de apoio a EACP | LCP + LRI |2021/2022 41


2.2.3 Medidas de localização

Recapitulando:
Parâmetro [população]: qualquer característica da população que seja mensurável.
Exemplo: percentagem de votantes de um determinado partido no total de
portugueses em idade de votar.
Estatística [amostra]: número que resulta da aplicação de procedimentos específicos aos dados
originais. Normalmente é calculada a partir de uma amostra, sendo utilizada como
base para estimar os parâmetros da população.
Exemplo: Uma amostra de eleitores portugueses pode ser utilizada para estimar a
percentagem de votantes num determinado partido.

Medidas de tendência ou localização central: “Qual é a observação “típica”?”


Medidas de dispersão: “Todos têm aproximadamente o mesmo rendimento ou há
uma grande variabilidade nos rendimentos?”

Dispersão Dispersão

Tendência central Tendência central

Acetatos de apoio a EACP | LCP + LRI |2021/2022 42


Média aritmética

a) Dados desagregados:
– O parâmetro da população representa-se por  [média da população]:

x + x2 + ... + x N 1 N
= 1
N
=
N
x i =1
i

onde:
xi = valores observados na população
N = dimensão da população
– A estatística referente à amostra representa-se por x [média de uma amostra da
população]:

x1 + x2 + ... + xn 1 n
x= =  xi
n n i =1
onde:
xi = valores observados na amostra
n = dimensão da amostra

Exemplo de cálculo da média aritmética com dados não agregados: Empresa


comercializa componentes eletrónicos aos seguintes preços.
Componente Preço [euros] - xi
A 50
B 20
C 25
D 30
E 10

O preço médio de um componente eletrónico é de €27:

50 + 20 + 25 + 30 + 10
x= = 27
5
Este preço médio é apenas a média dos cinco preços anunciados.

Acetatos de apoio a EACP | LCP + LRI |2021/2022 43


b) Dados agregados simples

Exemplo: Empresa comercializa componentes eletrónicos aos preços e quantidades que


se seguem (quantidades vendidas num dado mês):
Componente Preço [euros] - xi Quantidades [unidades] - ni
A 50 2
B 20 5
C 25 3
D 30 4
E 10 6

O preço médio é €22,75:

50  2 + 20  5 + 25  3 + 30  4 + 10  6
x= ou
2 + 5 + 3 + 4 + 6 = 20
= 50  0.1 + 20  0.25 + 25  0.15 + 30  0.2 + 10  0.3
= 22.75
Nota: este preço médio diz respeito ao que foi efetivamente vendido nesse mês.

Formalmente,
1 n 1 k k
x =  xi =  xi ni =  xi f i
n i =1 n i =1 i =1
Nota:
1 k x1n1 + x2 n2 + ... + xk nk x1n1 x2 n2 xk nk
ii
n i=1
x n =
n
=
n
+
n
+ ... +
n
k
= x1 f1 + x2 f 2 + x3 f 3 + ... + xk f k =  xi f i
i =1

ni
onde:
fi =
n
k = número de observações distintas ou categorias da variável

Acetatos de apoio a EACP | LCP + LRI |2021/2022 44


Exemplo de cálculo de média de dados qualitativos relativos a uma variável categórica
em escala ordinal:

A pergunta original no questionário era: “E em que medida diria que está interessado
pelo que se passa a nível da política local, nacional, europeia e internacional: 4 muito, 3
bastante, 2 pouco ou 1 nada?”

Fonte: Magalhães e Moral, 2008, Os jovens e a Política


http://www.presidencia.pt/archive/doc/Os_jovens_e_a_politica.pdf

Propriedades matemáticas (considere que c é uma constante):


n

1. Dados desagregados:  (x
i =1
i − x) = 0

2. Dados agregados:  f (x − x ) = 0
i =1
i i

3. media ( x1 , x2 ,..., xn ) = x  media ( x1 + c, x2 + c,..., xn + c ) = x + c

4. media ( x1 , x2 ,..., xn ) = x  media ( cx1 , cx2 ,..., cxn ) = cx

5. media ( x1 , x2 ,..., xn ) = x e media ( y1 , y2 ,..., yn ) = y

 media ( x1 + y1 , x2 + y2 ,..., xn + yn ) = x + y

Acetatos de apoio a EACP | LCP + LRI |2021/2022 45


A média aritmética é muito influenciada por valores extremos da variável (outliers) como
se vê nos exemplos seguintes.

Exemplo 1: média de salários mensais.

Coleção 1: € 1000 800 700 1200 1000


4700 / 5 = 940

Coleção 2: € 1000 800 700 1200 6000


9700 / 5 = 1940

Exemplo 2:

Conceito de Média “ponderada”:

 x *w i i
xw = i

w i
i

– wi são os ponderadores.
– A média aritmética simples é também uma média ponderada, onde implicitamente
se assume wi = 1.

Exemplo: notas
Disciplina Nota
A 10
B 13
C 12
D 15
E 12
F 12

Acetatos de apoio a EACP | LCP + LRI |2021/2022 46


10 + 13 + 12 + 15 + 12 + 12
Média aritmética = = 12.33
6
Disciplina Nota [xi] Unidades de xi wi
crédito
[wi]
A 10 3 30
B 13 4 52
C 12 2 24
D 15 3 45
E 12 3 36
F 12 3 36
Total 18 223
10  3 + 13  4 + 12  2 + 15  3 + 12  3 + 12  3
Média “ponderada” = = 12.39
18

c) Dados agregados em [k] classes:

Exemplo: Alturas dos alunos de Estatística:


Alturas [m] Centro da classe [ci] Frequência absoluta [n i]
]1.50, 1.60] 1.55 12
]1.60, 1.70] 1.65 18
]1.70, 1.80] 1.75 22
]1.80, 1.90] 1.85 14
]1.90, 2.00] 1.95 4
n 70

c n i i k
ni k
x= i =1
=  ci =  ci f i
n i =1 n i =1
onde:
k = número de classes
LimiteSuperior + LimiteInferior
ci = centro da classe: ci =
2
(limite inferior e superior da classe)
k

Nota:  f (c − x ) = 0
i =1
i i

Acetatos de apoio a EACP | LCP + LRI |2021/2022 47


Nota: nestes casos trata-se de um valor aproximado da verdadeira média [obtida
através dos dados não agrupados]. O erro cometido chama-se Erro de tabulagem ou
erro de agrupamento.

A altura média é de 1m e 72cm:


k
ni
x =  ci
i =1 n
12 18 22 14 4
= 1.55  + 1.65  + 1.75  + 1.85  + 1.95  =
70 70 70 70 70
1.55 12 + 1.65 18 + 1.75  22 + 1.85 14 + 1.95  4 120.5
= = = 1.72
70 70

Acetatos de apoio a EACP | LCP + LRI |2021/2022 48


Mediana

– Valor central da distribuição.


– Valor que divide a distribuição [depois de ordenada] ao meio, isto é, se as
observações estiverem ordenadas de forma crescente [ou decrescente], a mediana
separa a metade das observações que está abaixo e a metade que está acima da
mediana.
– O valor da mediana não é influenciado pelos valores das extremidades da série,
sendo útil na análise de distribuições assimétricas, como seja a distribuição do
rendimento.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana=3 Mediana=3

a) Dados desagregados ou agrupados simples


Número de observações é ímpar:

Mediana = xk +1 se n = 2k+1

Número de observações é par:

xk + xk +1
Mediana = se n = 2k
2

Exemplo com dados desagregados:


Notas de 5 alunos de Estatística: 10 11 12 13 15
→ mediana é 12
Notas de 6 alunos de Estatística: 10 12 13 14 15 15
→ mediana é (13+14)/2=13.5

Acetatos de apoio a EACP | LCP + LRI |2021/2022 49


Exemplo com dados agrupados: Notas de Estatística

Frequências
Frequência Frequência Freq. Relativa
Notas (Xi) absoluta
absoluta relativa acumulada
acumulada
10 2 2 0.04 0.04
11 5 7 0.1 0.14
12 8 15 0.16 0.3
13 15 30 0.3 0.6 ""nota 13" acumula 50% das notas"
14 5 35 0.1 0.7
15 15 50 0.3 1
Total 50 1

Observações não agrupadas a que correspondem estes dados?

10 10 11 11 11 11 11 12 ... 12 13 ... 13 14 ... 14 15 ... 15


n
2 observ 5 observações 8 observ 15 observ 5 observ 15 observ = 50

mediana corresponde ao valor entre a 25ª e 26ª observação

Nota: nos dados agrupados em classes, nesta UC, vamos apenas identificar a classe
mediana, ou seja a classe onde se localiza a mediana [existem fórmulas para calcular
de forma aproximada o valor da mediana].

Exemplo com dados em classes


Frequências
Frequência Frequência Freq. Relativa
Salário (Xi) absoluta
absoluta relativa acumulada
acumulada
[500 , 750] 40 40 0.4 0.4
]750 , 1000] 25 65 0.25 0.65
]1000 , 1500] 12 77 0.12 0.77
]1500 , 2000] 23 100 0.23 1
Total 100 1

Acetatos de apoio a EACP | LCP + LRI |2021/2022 50


Moda
– O valor mais comum, mais frequente, valor típico.
– Problemas:
1. Nem sempre se pode determinar:
a. Quando existe mais do que um valor da variável com a mesma frequência (dizemos que
não há uma moda nesse caso).
b. Podemos não encontrar valores que ocorram mais do que uma vez.
2. É um valor instável, podendo mudar radicalmente com a forma como os
dados são arredondados;
3. A moda pode ser um valor extremo, sendo nesta situação dificilmente
considerado uma medida de tendência central.

– nos dados agrupados em classes, nesta UC vamos apenas identificar a classe

modal, ou seja a classe com maior frequência absoluta mediana [existem


fórmulas para calcular de forma aproximada o valor da moda].

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Moda = 9 Não tem moda

− A moda é o valor que ocorre mais frequentemente.

Aplicação: Número de irmãos dos alunos de RI


Número de irmãos # alunos
0 3
1 8
2 5
3 3
4 1

a) Determine a moda.
b) Calcule a média e a mediana do número de irmãos.
c) Assumindo que nenhum dos alunos tem irmãos que também frequentam a
mesma turma, qual o número médio de filhos por família?

Acetatos de apoio a EACP | LCP + LRI |2021/2022 51


Relação entre as medidas de tendência/ localização central
Depende do nível de simetria da distribuição
Histograma simétrico

Moda = Média = Mediana

Histograma assimétrico à direita ou assimetria positiva Mediana à esquerda da Média

em inglês "positively skewed"


(dados da cauda da distribuição
estendem-se para a direita, para
o lado dos valores positivos)
Moda Mediana Média

Histograma assimétrico à esquerda ou assimetria negativa Mediana à direita da Média

em inglês "negatively skewed"


(dados da cauda da distribuição
estendem-se para a esquerda,
para o lado dos valores
negativos)
Média Moda

Mediana

Acetatos de apoio a EACP | LCP + LRI |2021/2022 52


(a) Distribuição simétrica: média = mediana

(b) e (c) Distribuição assimétrica:


Numa distribuição assimétrica, tipicamente a mediana é afastada da moda na direção
da cauda mais longa da distribuição. A média é afastada na mesma direção, mas para
um ponto mais distante.
Assimetria positiva [ou à direita]: a “cauda” mais longa da representação estende-
se para a direita. Neste caso: mediana < média
Assimetria negativa [ou à esquerda]: média < mediana

Exemplos com médias, modas e medianas

Exemplo 1: média, mediana, moda


Idades no Grupo A: 11, 12, 13, 13, 14, 15
Idades no Grupo B: 11, 12, 13, 13, 14, 27
A: média = 13.0 B: média = 15.0
mediana = 13 mediana = 13
moda = 13 moda = 13

Logo, a média é a medida que mais é afetada por valores extremos.

Exemplo 2: Dados categóricos

Um estudo pretende avaliar o efeito de um medicamento novo no crescimento de um


tumor. O medicamento novo (A) é ministrado a um grupo de doentes, enquanto que o
medicamento antigo (B) é aplicado noutro grupo de doentes. No final do tratamento o
tamanho do tumor é medido em todos os indivíduos.
Tamanho do tumor: 1 = pequeno 2 = médio 3 = grande
Grupo A: 1, 1, 2, 2, 2, 2, 2, 3
Grupo B: 1, 2, 2, 3, 3, 3, 3, 3

Acetatos de apoio a EACP | LCP + LRI |2021/2022 53


Média = NÃO faz muito sentido neste caso calcular. [A média para A = 1.87 e B=
2.5, o que é que isto quer dizer efetivamente?]
Mediana: A=2
B=3
Moda: A=2
B=3

Exemplo 3: (informação que cada indicador dá)

5 casas numa colina perto da praia

$2,000 K
Preços das casas:

$2,000,000
500,000 $500 K
300,000 $300 K
100,000
100,000

$100 K

$100 K

Preços casas:
◼ Média: ($3,000,000/5)
= $600,000
$2,000,000
500,000 ◼ Mediana: Valor do meio de dados ordenados
300,000 = $300,000
100,000
100,000 ◼ Moda: Valor mais frequente
Soma 3,000,000
= $100,000

Acetatos de apoio a EACP | LCP + LRI |2021/2022 54


Fonte: Chaves et al (2000), p. 207

Aplicação: Desigualdade na distribuição do rendimento e risco de pobreza em Portugal


Fonte: INE (2019) Rendimento e condições de vida
https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=406634754&att_display=n&att_download=y

➢ Linha ou limiar de pobreza: limiar do rendimento abaixo do qual se considera


que uma família se encontra em risco de pobreza. Este valor foi convencionado
pela Comissão Europeia como sendo o correspondente a 60% da mediana do
rendimento por adulto equivalente* de cada país.

➢ Genericamente, Taxa de risco de pobreza: proporção da população cujo


rendimento equivalente, após transferências sociais, se encontra abaixo da linha
de pobreza. Em 2013 19.5% da população e em 2018 17.2%.

➢ À data do relatório (2018), a taxa de risco de pobreza corresponde à proporção


de habitantes com rendimentos anuais por adulto equivalente inferiores a “6 014
euros anuais (501 euros por mês, mais 34 euros que no ano anterior)” [nota: em
2013 era <4937 em 2013 (cerca de <411 por mês).]

Este limiar, ou linha de pobreza relativa, corresponde a 60% da mediana da


distribuição dos rendimentos monetários líquidos equivalentes.

Acetatos de apoio a EACP | LCP + LRI |2021/2022 55


Acetatos de apoio a EACP | LCP + LRI |2021/2022 56

Você também pode gostar