Você está na página 1de 46

ESGHTde- UAlg

3. Distribuição Frequências

Estatística I

3. Distribuição de Frequências

Lara Noronha Ferreira


Lnferrei@ualg.pt

Estatística I 1 Lara N. Ferreira


3. Distribuição de Frequências
3.1. Introdução
Distribuição de Frequências
Quando os dados são provenientes de inquéritos ou registos
administrativos, normalmente estão disponíveis ficheiros de dados com
muitas linhas, que quando observados, nenhuma informação permitem
retirar.

Assim, constroem-se distribuições de frequências, que ilustram o


conjunto de todos os valores observados para uma variável estatística
com as correspondentes frequências (absolutas ou relativas).

A sua disposição prática é designada por tabela de frequências.

Estatística I 2 Lara N. Ferreira


3. Distribuição de Frequências
3.1. Introdução

As tabelas de distribuições de frequências podem ser produzidas


para:

 Variáveis qualitativas

 Variáveis quantitativas discretas


Utiliza-se quando o número de valores que a variável toma é finito ou
infinito numerável.

 Variáveis quantitativas contínuas


Utiliza-se quando o número de valores que a variável toma é um
número infinito não numerável.

Estatística I 3 Lara N. Ferreira


3. Distribuição de Frequências
3.2. Distribuição de frequências de variáveis qualitativas
ências Frequências
Frequências Frequências
Frequências Frequências
A Frequências
frequência absoluta Frequências
(ni) é o
lutas Variável Absolutas
Absolutas Acumuladas Absolutas
Relativas Acumuladas Relativas
Relativas Acumuladas Relativas Acumulad
número de vezes que cada
xi Ni ni fi Ni Fi fi Fi
observação da variável se repete.
1
x1 n1 nn11 f11 n1 f1 f1 f1
x2 n1 +n2nn22 f22 n1 +n2 A frequência
f1 +f2 f2 relativa (f ) fde
+f2
2 i 1

3
x3 n1 +n2 +nnn333 fn n n +f2 +f3f3
31 + 2 + 3 umaf1observação
f1 +éf2 +f3
da variável
M M M M M M M M
M dada por
xp p np f p p fp p
å ni f pp å ni å fi n
fi = i
n
å fi
i =1 i =1 i =1 i =1
p p p
=n Total å ni =n å fi =1 å fi =1de vezes que
isto é, o número
i =1 i =1 i =1
essa observação ocorre (ni)
relativamente ao total da amostra
(n) ou da população (N).
Estatística I 4 Lara N. Ferreira
3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas

Frequências Frequências Frequências Frequências


Variável Absolutas Absolutas Acumuladas Relativas Relativas Acumuladas
xi ni Ni fi Fi
x1 n1 n1n1 f1 ff11
n1 f1
x2 nn22  n2
n1n1+n2 ff2 f1f1+ff22
2
n1  n2  n3 f1 f1 +ff22 +f3f 3
x3 nn33 n1 +n2 +n3 ff3
3
M M M M M
M M
p pp
åfif
xp np fp
å ni fp å i
i =1 i i==11
p p
Total å ni =n å fi =1
i =1 i =1

Estatística I 5 Lara N. Ferreira


3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas
A partir das frequências absolutas podem calcular-se as frequências
relativas e as frequências absolutas e relativas acumuladas.

As frequências acumuladas (Ni e Fi) são a soma de ocorrências para


os valores da variável inferiores ou iguais ao valor dado. Representam
assim, o número ou proporção de elementos observados que possuem
valor igual ou inferior ao dado em causa.

A partir das frequências relativas (simples ou acumuladas) podem obter-


se as frequências relativas em percentagem (fi % e Fi %),
multiplicando aquelas por 100%. Uma das vantagens das frequências
relativas percentuais consiste em possibilitar a comparação de dois ou
mais conjuntos de dados de diferentes dimensões.

Estatística I 6 Lara N. Ferreira


3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas
Exemplo 3.1:
O quadro seguinte apresenta o número de jornais e revistas
comprados pela Ana, por dia, durante o mês de Setembro.

1 0 1 1 3 0
1 0 1 0 1 2
1 1 3 0 1 0
1 2 4 2 1 0
0 0 0 0 0 0

É possível apresentar esta informação de uma forma mais


organizada, fácil e rápida de entender, através de um quadro de
distribuição de frequências.
Estatística I 7 Lara N. Ferreira
3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas
Quadro de distribuição de frequências:

Nº Jornais Frequência Frequência Absoluta Frequência Frequência Relativa


e Revistas Absoluta (n i ) Acumulada (N i ) Relativa (f i ) Acumulada (F i )
0 13 13 0,43 0,43
1 11 24 0,37 0,80
2 3 27 0,10 0,90
3 2 29 0,07 0,97
4 1 30 0,03 1,00
Total 30 1

Estatística I 8 Lara N. Ferreira


3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas

As frequências absolutas mostram-nos, por exemplo, que em 13


dias a Ana não comprou nenhum jornal ou revista e que em apenas
1 dia comprou 4 jornais e revistas.

As frequências relativas permitem-nos concluir que em 0,10 ou


10% dos dias a Ana comprou dois jornais e revistas

As frequências acumuladas dão-nos a informação de que em 27


dias a Ana comprou no máximo 2 jornais e revistas,
correspondendo a 90% do total dos dias considerados.

Estatística I 9 Lara N. Ferreira


3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas
Representação gráfica através de um gráfico de barras:

14

12

10

0
0 1 2 3 4

Estatística I 10 Lara N. Ferreira


3. Distribuição de Frequências
3.3. Distribuição de frequências de variáveis discretas
SPSS:
A construção de uma tabela de distribuição de frequências em SPSS, quer
para variáveis qualitativas quer quantitativas discretas, pode ser feita em:

Analyze – Descriptive Statistics – Frequencies…

E depois:

1. Seleccionar a variável

2. Escolher opções (tipo de frequências, tipo de gráfico, etc)

3. Clicar em Ok
Estatística I 11 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
A construção de uma distribuição de frequências para variáveis contínuas
exige a definição prévia de classes de valores assumidos pela variável
estatística.

As Classes são intervalos (intervalos de classe) cuja reunião contém o


intervalo de variação da variável observada.

 Etapas para a construção de uma distribuição de


frequências
1. Determinar o número de classes
2. Calcular a amplitude de cada classe
3. Estabelecer os limites de cada classe de modo que sejam
exaustivas e mutuamente exclusivas.
Estatística I 12 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

 Determinação do número de classes

• O número de classes depende do número de observações.


• Quanto maior for o número de observações maior deverá ser o
número de classes.
• Em geral, uma distribuição de frequências deve ter pelo
menos cinco e não mais do que quinze classes.
• Se o número de classes for muito reduzido ou muito elevado,
pouca informação pode ser obtida a partir da distribuição de
frequências.

Estatística I 13 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

• Não existe uma fórmula exacta para o cálculo do número


de classes.

• Existe, no entanto, uma fórmula sugerida por STURGES que


tem sido utilizada com bons resultados em muitas
distribuições.

Segundo essa fórmula, o número p de classes é dado por:


log N
p = 1
log 2

onde N designa a dimensão da população ( ou n se se


tratar de uma amostra).
Estatística I 14 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
 Cálculo da Amplitude de cada Classe

• As classes deverão ter, sempre que possível, amplitudes


iguais.

A amplitude das classes (ai) poderá ser calculada da


seguinte forma:
intervalo de variação
Amplitude de classe =
número de classes desejadas

Estatística I 15 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
 Cálculo da Amplitude de cada Classe

Exemplo 3.2: Considere a distribuição do gasto semanal em


bebidas de uma amostra de 44 indivíduos, em que:

Xmaior= 67 Xmenor= 2 N = 44

Determine o número de classes apropriado à distribuição,


bem como a amplitude das classes.

log 44 1,64 O arredondamento é sempre


p = 1 = 1 = 1  5,5 = 6,5  7 classes feito para cima
log 2 0,3
67  2 65
ai = = = 9,29  10
7 7
Estatística I 16 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
 Estabelecimento dos limites de cada classe

O estabelecimento dos limites de cada classe é muito


importante, pois devem ser exaustivas e mutuamente
exclusivas em relação a todas as observações

0 2346788
Exemplo 3.2: 1 000124556667899
2 001125567
3 013
4 0224667
5 3
6 27

Estatística I 17 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
 Estabelecimento dos limites de cada classe
Distribuição e frequências de dados agrupados em classes

classes Frequências Absolutas


nn
i i
[ 0 - 10 [ 7
[ 10 - 20 [ 15
[ 20 - 30 [ 9
[ 30 - 40 [ 3
[ 40 - 50 [ 7
[ 50 - 60 [ 1
[ 60 - 70 [ 2

ån
i =1
i = 44

Estatística I 18 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

Após a definição das classes e das frequências absolutas para cada


classe, o cálculo das frequências relativas e das frequências
acumuladas é idêntico ao anterior.

Ao utilizarmos um quadro de distribuição de frequências, os valores


individuais da variável deixam de ser conhecidos

daí a necessidade

de se identificar o valor representativo de cada classe, que


corresponde ao seu ponto médio (mi).
Estatística I 19 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
Quadro de frequências para uma distribuição de
dados agrupados em classes:
Pontos Frequências Frequências Frequências Frequências
Classes Médios Absolutas Absolutas Relativas Relativas
mi ni Acumuladas fi Acumuladas
N
Nii FiFi
[ L0  L1[ m1 nn11 nn11 ff11 f1f
1
[ L1  L2 [ m2 n22 n11 +nn2 2 ff2
2 f1f1 +f2 f 2
[ L2  L3 [ m3 n33 nn11+nn22 +n3n3 ff3
3 f2f 2+f3 f 3
f11 +
M M M M M M M
M M M
[ Lp  1  Lp [ mp np p p p
ffpp
np å ni ååfi f
i =1
i Em que:
i =1 i =1
p p Li 1  Li
Total å ni =n å fi =1
mi =
2
i =1 i =1
(i = 1, 2, 3, ... , p)
Estatística I 20 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
Exemplo 3.2: Relativamente ao exemplo em curso, a tabela completa de
frequências será:
Pontos Frequências Frequências Frequências Frequências
Classes Médios Absolutas Absolutas Relativas Relativas
mi ni Acumuladas fi Acumuladas
Ni Fi

[ 0 - 10 [ 5 7 7 0.159 0.159
[ 10 - 20 [ 15 15 22 0.341 0.500
[ 20 - 30 [ 25 9 31 0.205 0.705
[ 30 - 40 [ 35 3 34 0.068 0.773
[ 40 - 50 [ 45 7 41 0.159 0.932
[ 50 - 60 [ 55 1 42 0.023 0.955
[ 60 - 70 [ 65 2 44 0.045 1.000

Total 44 1.000

L21  L2 L1  L2 10  20
m2 = = = = 15
2 2 2
Estatística I 21 Lara N. Ferreira
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

A representação gráfica de dados agrupados em classes tem


que ser feita num histograma.
Um Histograma é gráfico de barras rectangulares verticais
sem espaço entre as barras.

fi eixo dos YY: representam-se as frequências


(absolutas, relativas ou percentuais)

eixo dos XX: colocam-se as classes

Xi

Estatística I 22 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

A base de cada retângulo é proporcional à amplitude da


respetiva classe e a área proporcional à frequência da classe.

classes com a mesma a altura de cada rectângulo é


amplitude proporcional à respectiva frequência
É necessário normalizar todas as
classes com
frequências para que a proporcionalidade
amplitudes diferentes
das áreas se verifique.
Neste último caso, as alturas dos retângulos que constituem o
histograma serão o quociente entre as frequências e as respetivas
amplitudes das classes: hi = ni
ai

Estatística I 23 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

A partir do histograma pode construir-se o polígono de frequências,


unindo os pontos médios dos lados superiores dos retângulos do
histograma.

A área definida pelo histograma deverá ser igual à área abaixo do


polígono de frequências, o que obriga a um cuidado especial quando as
classes têm amplitudes diferentes.

Para fechar o polígono, é necessário criar uma classe adicional em cada


um dos extremos do histograma, com amplitude idêntica à das classes
adjacentes e com frequência nula.

Estatística I 24 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas

Tomando grande número de observações, isto é, supondo


que n   , é teoricamente possível considerar classes
de amplitude muito pequena e assim o histograma adquirirá
uma forma susceptível de ser substituída por uma curva

a curva de frequências

Estatística I 25 Lara N. Ferreira


3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
fi (%)
60 Histograma de frequências relativas e Polígono
de frequências
50

40 34,1

30
20,5
20
15,9 15,9
15

10 6,5
4,5
5
2,3

-10 0 10 20 30 40 50 60 70 80 Xi
Estatística I 26 Lara N. Ferreira
3. Distribuição de Frequências
100
Fi (%) Histograma de
90 frequências
acumuladas e ogiva
80

70 Considerando as frequências
acumuladas no limite inferior
60 das classes obtém-se o
polígono de frequências
50
acumuladas também
conhecido por polígono
40
integral ou ogiva.
30

20

10

0 10 20 30 40 50 60 70 80 Xi Lara N. Ferreira
Estatística I 27
3. Distribuição de Frequências
3.4. Distribuição de frequências de variáveis contínuas
Excel:
A construção de uma tabela de distribuição de frequências em Excel exige
que estejam definidos os limites de cada classe (Bin range)

Seleccionar Dados
Seleccionar Análise de Dados
Clicar em Histograma e em seguida OK
Introduzir o Intervalo de entrada (quadro de dados)
Introduzir o Bloco (limites das classes)
Escolher o Intervalo de saída (para onde vão os resultados)
Clicar em OK

Estatística I 28 Lara N. Ferreira


3. Distribuição de Frequências
3.5. Medidas descritivas
Sempre que for possível devem calcular-se todas as medidas
descritivas com base no quadro de dados completo.

Mas por vezes só existe disponível a distribuição de


frequências, pelo que a única solução consiste em calcular as
medidas descritivas em Excel a partir daí.

Enquanto as medidas descritivas calculadas a partir dos


dados completos conduzem a resultados exactos, as
medidas calculadas a partir das distribuições de frequências
com classes conduzem a aproximações.

Estatística I 29 Lara N. Ferreira


3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Média

A média é dada aproximadamente por:


p
å mi ni
x  i =1
n
em que:

x = média da amostra
n = número de observações da amostra
p = número de classes da distribuição de frequências
mi = ponto médio da i-ésima classe
ni = número de observações (frequência absoluta) da i-ésima classe.
Estatística I 30 Lara N. Ferreira
3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Mediana

O valor da mediana obtém-se através da seguinte expressão:


n
 N ( m 1)
Me  lm  2  am
nm
em que:

lm = limite inferior da classe mediana


N(m-1)= frequência absoluta acumulada anterior à classe
mediana
nm= frequência absoluta da classe mediana
am= amplitude da classe mediana.
Estatística I 31 Lara N. Ferreira
3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Mediana
Se se utilizarem frequências relativas em vez de frequências
absolutas, a expressão tomará a seguinte forma:

0. 5  F( m  1)
Me  l m   am
fm
em que:
lm = limite inferior da classe mediana
F(m-1)= frequência relativa acumulada anterior à classe mediana
fm= frequência relativa da classe mediana
am= amplitude da classe mediana.

Estatística I 32 Lara N. Ferreira


3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Mediana

A aplicação destas fórmulas no cálculo da mediana,


pressupõe que as frequências se distribuem uniformemente
dentro de cada classe.

 Moda

Numa distribuição de frequências, a moda pode ser


aproximada pelo ponto médio da classe que contém
maior número de observações.
Esta classe é denominada classe modal.
Estatística I 33 Lara N. Ferreira
3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Moda

Esta definição de Moda pode ser refinada tendo em conta as


frequências (absolutas ou relativas) da célula modal (nmo ou
fmo) e das células que lhe são adjacentes:
d1
Mo  lmo   amo
em que: d1  d 2

lmo = limite inferior da classe modal


d1 = nmo – n(mo – 1) ou d1 = fmo – f(mo – 1)
d2 = nmo – n(mo + 1) ou d2 = fmo – f(mo + 1)
amo= amplitude da classe modal.
Estatística I 34 Lara N. Ferreira
3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Quartis
O cálculo dos quartis é idêntico ao da mediana com as
respectivas adaptações.
n
 N ( Q 1)
Q1  lQ  4 1
 aQ
1
nQ 1
1
em que:
lQ1 = limite inferior da classe que contém o 1º Quartil
N(Q1-1)= frequência absoluta acumulada da classe anterior à que
contém o 1º Quartil
nQ1= frequência absoluta da classe que contém o 1º Quartil
aQ1= amplitude da classe que contém o 1º Quartil
Estatística I 35 Lara N. Ferreira
3. Distribuição de Frequências
3.5. Medidas descritivas de localização

 Quartis
3n
 N (Q 1)
Q3  lQ  4 3
 aQ
3
nQ 3
3

em que:
lQ3 = limite inferior da classe que contém o 3º Quartil
N(Q3-1)= frequência absoluta acumulada da classe anterior à que
contém o 3º Quartil
nQ3= frequência absoluta da classe que contém o 3º Quartil
aQ3= amplitude da classe que contém o 3º Quartil
Estatística I 36 Lara N. Ferreira
3. Distribuição de Frequências
3.6. Medidas descritivas de dispersão

 Amplitude Total

Para dados agrupados em classes a amplitude total pode ser


aproximada pela diferença entre o limite superior da última
classe e o limite inferior da primeira classe.

 Intervalo interquartil
IQ = Q3 – Q1

Estatística I 37 Lara N. Ferreira


3. Distribuição de Frequências
3.6. Medidas descritivas de dispersão

 Variância e Desvio Padrão

Estas medidas calculam-se da seguinte forma:


p

å (m
p
i  x ) ni
2
å (m  x)
i
2
ni
s2  i =1
s  i =1

n 1 n 1

Observação: Quando a amostra é grande então no denominador usa-se n.

 Coeficiente de Variação

 s
CV     100
 x
Estatística I 38 Lara N. Ferreira
3. Distribuição de Frequências
3.6. Medidas descritivas de dispersão
Exemplo 3.2: Relativamente ao exemplo em curso, o cálculo das medidas
descritivas em Excel produz os seguintes resultados:
σ𝑝𝑖=1 𝑚𝑖 𝑥𝑖 1090
𝑋ത = = = 24,77 𝐴𝑇 = 70 − 0 = 70
𝑛 44
44
2
−7 𝐼𝑄 = 36,67 − 12,67 =24
𝑀𝑒 ≅ 10 + × 10 = 20
15

𝑀𝑜 ≅ 10 +
8
× 10 =15,71 𝑆 2 = 267,39
8+6
44
4
−7 16,35
𝑄1 ≅ 10 + × 10 = 12,67 𝐶𝑉 = × 100% = 66%
15 24,77
3×44
4
−31
𝑄3 ≅ 30 + × 10 = 36,67
3
Estatística I 39 Lara N. Ferreira
3. Distribuição de Frequências
3.7. Medida descritiva de concentração

Uma questão relacionada com a dispersão ou variabilidade é


a concentração da característica nos elementos da
população ou da amostra.

Ex: Concentração do rendimento ou da riqueza, concentração


dos mercados (nº empresa vs quota de mercado)

A concentração é medida através do Índice de Gini e


representada graficamente pela curva de Lorenz.

Estatística I 40 Lara N. Ferreira


3. Distribuição de Frequências
3.7. Medida descritiva de concentração
Considere-se o caso de uma distribuição de frequências com p
classes Ii= [ Li-1 ; Li [ , i=1, 2, …, p, com frequências absolutas ni.

Seja:
ti – total da característica dos elementos da classe Ii
(quando não se dispõe de informação individual, ti  nimi )

Metodologia de cálculo:
1 – Calcular os valores acumulados das frequências relativas,
2 – Calcular o valor acumulado do atributo como proporção do total;
3 – Calcular o índice de Gini.

Estatística I 41 Lara N. Ferreira


3. Distribuição de Frequências
3.7. Medida descritiva de concentração
Valor acumulado das frequências relativas até à classe Ii:
i nj
pi = å
j =1 n

Valor acumulado do atributo, como proporção do total, até à classe Ii:


i

åt
j =1
j

qi = p

åt
k =1
k

Estatística I 42 Lara N. Ferreira


3. Distribuição de Frequências
3.7. Medida descritiva de concentração
p 1
Índice de Gini: åq i
G = 1 i =1
p 1

åp
i =1
i

Propriedades do Índice de Gini:

a) G = 0 na situação de igual repartição do atributo,


b) G = 1 quando a concentração é máxima,
c) 0 ≤ G ≤ 1 e é tanto maior quanto maior for a concentração.

Estatística I 43 Lara N. Ferreira


3. Distribuição de Frequências
3.8. Curva de Lorenz
Curva de Lorenz: Gráfico utilizado pelos analistas económicos para
realçar, sobretudo, a desigualdade da repartição do rendimento ou da
riqueza.
qi

pi

Estatística I 44 Lara N. Ferreira


3. Distribuição de Frequências
3.8. Curva de Lorenz
Exemplo 3.3: Considere a seguinte distribuição do rendimento das
famílias de uma certa cidade:

Classe de rendimento N.º de famílias O cálculo do índice de


0 – 10 500 Gini em Excel exige que
10 – 20 200
se calcule a coluna do pi
e a do qi, para se
20 – 30 150
calcular:
30 – 40 100
40 – 50 2,951
40
G = 1 = 0,260
50 – 60 10 3,99
Total 1000
Conclui-se que existe
uma fraca concentração
do rendimento.
Estatística I 45 Lara N. Ferreira
ESGHTde- UAlg
3. Distribuição Frequências

Estatística I

3. Distribuição de Frequências
Dúvidas?
1. Tutorias
2. Lnferrei@ualg.pt
3. Gabinete 40
Estatística I 46 Lara N. Ferreira

Você também pode gostar