Você está na página 1de 30

ESTATISTICA DESCAITIVA

Percentagem
Grupo
populacional
Percentagem
da populaçao
de riqueza
20
1. Muito pobre
20
10
5.
6. Muito rico
Os resultados obtidos num inquérito aos trabalhadores da construçao civil, com
o objectivo de conhecer a concentraça0 salarial neste sector industrial, foram 0
seguintes
12.
Salarios
V
Classes
pagos
(10 conto0s)
de trabalhadores
salariais
(contos)
750
22
453
40
24
005
1 161
40-
2 142
39
477
50-60
1571
60- -80
100
24 093
10 443
933
0-
264
2 125
100-150
1 012
191
150-200
2 200
514
a) Construa a respectiva curva de Lorenz
b) Comente os resultados obtidos.
13.
Considere o seguinte quadro relativo à distribuição do número de expioraçoes
agricolas por classes de produto agricola bruto (PAB), para os distritos de Viana
do Castelo e Setübal:
122
8gss8s
3.5. MEDIDAS DE DISPERsÃO E DE CONCENTRAÇAO 1ll
A variância do índice de perigos ambientais da casa do idoso é
s 12.5 x 0.053 +17.5 x 0.228 +22.5 x0.386 +27.5x
x 0.14 + 32.5 x 0.123 +37.52 x 0.07 23.81= 40.834
e o desvio padrão é s =V40.834 = 6.390.
Por razoes que se compreenderão melhor quando se estudar a
inferênea estatistica, a utilizaçao da variância da amostra para es-
timar a variância da populaçao introduz um enviesamento: em mé
dia, conduz a valores sistematicamente inferiores à variancia da
população. Todavia, este enviesiamento pode ser corrigido. Para
tal, basta redefinir a variäncia dividindo a soma dos quadrados dos
desvios, nao por n mas sim por n1, dando lugar à denominada
variância corrigida (s):
(3.69)
n-1
1
Ou,
- - an
(3.70)
Esta fórmula da variáncia é recomendada para a utilizaçao com
fins de inferência quando a amostra é pequena (na prática, menor
do que 30). Para grandes amostras, a divisao por n ou por n-1
conduz, em term0S praticoS, a valores muito próximos. Porém, se o
objectivo é apenas descritivo e nao inferencial, utiliza-se a variância
nao corrigida independentemente do inero de observaçoes.
O desvio padrão da amostra corrigido (s), para dados não
classificados, é calculado pela fórmula,
(3.71)
'-T2-
O1, para dados classificados, por
(3.72)
r-Pn
DADOS
114 CAPTTULO 3. REDUÇÃO E SINTETIZAÇÃO DE D
vem, finalmente,
-
(3.81)
-
3.5.2 Medidas de dispersão relativas
As medidas de variabilicdade que se acabaram de imtroduzir são
didas de dispersao absolutas que mao devem ser usadas para
comparar dispersões de distribuigoes quando os valores das nedi-
das de localização forem diferentes. P'ara obviar a este problema
usam-se medidas de dispersao relativas. Estas calculam-se co-
siderando a razäo entre uma medida de dispersao absoluta e uma
medida de localizaçao:
Ine
nedida de dispersao absoluta
medida de localização
Medida de dispersão relativa=
A medida de dispersão relativa mais usada é o coeficiente de
variação (CV) que se deline apenas para varnáveis com valores
todos positivos ou todos negatavos e relaciona o desvio padräão e a
média (expresso na torma de percentagem):
CV-x 100
(3.82)
O coeficiente de variação dos dados do Exemplo 3.2 (ver Quadro
3.2) é
CV
6.390100 26.837
23.81
=
o que significa que o desvio padrao é 26.837% da média.
Uma outra medida de dispersão relativa, que é insensível aos
valores extremos e, portanto, adequada para distribuiçoes em qe
exaistem valores mito diferentes da grande maioria de valores, Col
sidera como medida de dispersão absoluta a amplitude inter-quarus
e como medida de localização a nediana:
Q-Q
(3.83)
e
3.5. MEDIDAS DE DISPERSAO E DE CONCENTRAÇÃO 113
() e as variâncias dos grupos (,s,s):
- -
(3.76)
j=l
que tem a seguinte nterpretaçao: a variância total é igual à soma
da variáância dentro dos grupos com a soma da variância entre
grupos.
A demonstração processa-se do seguinte modo. Designando a
i-ésima observaçao do grupo j por Dij e a média global por , a
variáncia total pode escrever-se
- ay- 7
(3.77)
j-1 1=
Adicionando e subtraindo D; 1a expressao entre parènteses, desen-
volvendo o quadrado e recorrendo às propriedades dos somatórios,
obtém-se
Gy- 7) + (@-)- y-7+
J
-' + EX20y- 3)G;- 7 (4.75)
i
A terceira parcela do lado direito é nula pois tem-se
22y-z)G-7-2- -7) (6.79)
jl
e o segundo somatório do lado direito é também ulo pela pro-
priedade 3 das médias.
Notando que
ey-3-n,d -7-n- (as0)
j-1
jli1
3.5. MEDIDAS DE DISPERSAO E DE CONCENTRAÇA0 107
Como exemplos, calculem-se os quartis da distribuição do fndice
ae perigos ambientais da casa do idoso (ver Exemplo 3.2 e Quadro
3.2):
0.25-0.05 x5= 19. 320
Q1=qo.25 1 0.281-0.053
3qo.7525+ x 5 = 27. 964
0.80/
Medidas de dispersão e de concen-
traçao
3.5
Uma medida de localização não é suficiente para sintetizar n
conjunto de observações. Além da localização, é necessário tambem
conhecer como se distribuem os valores ao longo do intervalo de
variaçao. Concentram-se todos os valores à volta da média ou, pelo
contrari0, 0s mesInos se encontram muito dispersos ? Quer isto di-
zer que precisamos de uma medida da dispersão ou variaçao que
possa traduzir a menor ou maior dispersao dos valores. As medidas
de dispersäo calculadas relativamente a uma medida de localizaçāo
(a média é a medida privilegiada) são as mais interessantes.
As medidas de dispersão podem ser absolutas ou relativas.
As primeiras são mais adequadas para medir a dispersão de umm
conjunto de dados e as segundas para comparar as dispersoes de
dois ou mais conjuntos de dados de dilerentes valores de localizaçaäo.
Por outro lado, também tem interesse estudar um outro aspecto
relacionado com a dispersao que é a concentração. O estudo da
concentraçao permite deterninar se a característica ou atributo em
causa está igualmente distribuido pelos diversos elementos ou, pelo
contrári0, está mais concentrado nuns segmetos de elementos do
que noutros.
3.5.1 Medidas de dispersão absoluta
Amplitude de variação e amplitude inter-quartis
A medida de variabilidade mais intuitiva é a amplitude do
intervalo de variação
I = mar(zi) man(r,)
(3.59)
5 MEDIDAS DE DISPERSAO E DE CONCENTRAÇÃO 115
Esta medida de dispersao relativa para os dados do Exemplo 3.2
(ver Quadro 3.2) toma o valor
27.964 19.320
0.379
22.837
o que signilica que o valor da amplitude do intervalo inter-quartis
é 37.9% do valor da mediana.
3.5.3 Momentos
A média, o desvio médio e a variancia são medidas que pertencem
a uma classe mais geral denominada classe dos momentos. Os
momentos podem defimir-se em relaçao à origem (momentos na
origem) ou em relaçao a qualquer outra constante (momentos
centrados) e podem ainda ser ordimários ou absolutos. Estes
iltimos distinguem-se dos primeiros por considerarem os valores
absolutos. De entre os momentos cetrados têm particular interesse
os momentos centrados na média, os únicos aqui considerados.
Por momento ordinário de ordem k (inteiro positivo) na origem
(m) entende-se a média das potências k dos valores da variável ,
1sto e,
(3.84)
m, o m-ns); k=1,2,
i-1
j=1
O momento de ordem 1, ou primeiro momento na origem, é a
média da variável
-n- (3.85)
;= T ou
Co momento de ordem 2, ou segundo momento na origem, e
(3.86)
m-n
ou
i1
Te Ja apareceu uma das fórmulas da variäncia.
3.5. MEDIDAS DE DISPERSÄO E DE CONCENTRAÇAO 109
por outro lado, quanto maiores forem os desvios maiores são os res-
pectivos quadradoS. A média dos quadrados dos desvios vai ser usa-
da como medida de dispersäo e é denominada variância. Quando
o conjunto de dados se refere a uma amostraé conveniente utilZar
a termnologia variancia de uma variável empírica (ou variänca
amostral).
A variancia da variável r ou da amostra (T1, T2, .n)representa-
se por s e define-se do seguinte modo:
(3.62)
De entre as médias de quadrados de desvios (ou médias quadráti-
cas),
(3.63)
a variancia é a menor delas. Com eteito, pode mostrar-se que a
média dos quadrados dos desvios em relaçao a um dado valor cé
mínima quando esse valor cé a média dos valores (c = T) (ver
exercício 3.12).
A variancia pode também calcular-se através de outra fórmula
equivalente (ver exercício 3.13) e que tem vantagem em termos de
cálculos:
- - a
(3.64)
A demonstração deste resultado é muito fácil bastando para tal
desenvolver o quadrado da diferença e aplicar as propriedades das
somas (dos somatórios).
Supondo que os dados são discretos, mas se encontram na forma
de quadro de frequências, ou contínuos na forma de classes, a vari-
ancia calcula-se pela fórmula,
- -n,--2's
(3.65)
onde r, designa os valores distintos dos dados discretos ou os pontos
nédios das classes no caso dos dados contínuos, ou pela lórmula
110 CAPÍTULO 3. REDUÇAO E SINTETIZAÇAO DE DADO
equivalente,
3.66)
- - (ay- f- (a
j=l
A dispersao ou variabilidade e tanto malor quanto maior é
valor da variância. Mas a variáncia é uma nedida de dispersä0 ue
vem expressa em unidades da variável ao quadrado. Uma outra
medida, também muito usada para medir a spersa0 e que vem
expressa nas mesmas unidades da variável, éo desvio padrão (
que é simplesmente a raíz quadrada positiva da variância. Tem-se
entao, para dados nao classificados,
+V-+ -a
(3.67)
ou, para dados classificados,
TT
3.68)
s=+Vs= -a"ny= 2%-2P
j-l
Como exemplo de cálculo da variância e do desvio padräo de
dados discretos na forma de quadro de frequências, considerem-se
os dados do Exemplo 3.1 (Quadro 3.1).
A variancia do número de acidentes dos idosos é
s 0.597x 12 +0.140 x 22 +0.211 x 3 +0.035 x 4+
+0.018x 6-1.7542 = 1. 187
eo desvio padrão é s =V1. 187 =1.089.
Como exemplo de dados classificados (dados contínuos), tot
se os dados do Exemplo 3.2 (Quadro 3.2).
EXERCICIOS PROPOSTO5
a) Construa um histograma e um poligono de frequências para os dao
anteriores:
b) Calcule as medidas de tendència central;
e) Calcule o desvio padrão e a variância.
Foi feita uma experiencia para medir o tempo gasto na execução de determinada
tareta num circuo de construçao, por operârios de ambos os sexos. 0s resu
tados foram os seguintes:
Tempo
(munutos)
Numero
Numero
de operarios
de operarias
Menos de 10
10
12
12-
15
15
30
20
30-60
0
0
40
60 ou mais
Pressuponha que os limites de tempo minimo e maximo são, respectivamente 8
e 120 minutos.
Calcule as seguintes medidas estatisticas para os seguintes grupos:
Grupo de operarios
Grupo de operárias
Grupo de todos os trabalhadores
Media aritmetica
Mediana
Desvio-padrão
Intervalo inter-quartis
Coeficiente de variação
Coeficiente de assimetria
Um inquerito por amostragem feito por uma empresa produtora de pneus sobre
quiometragem mensal dos motoristas de camióes TIR. permitiu obter os se
guintes resultados
DOS
112 CAPÍTULO 3. REDUÇAO E SINTETIZAÇAO DE DADO
Note-se, mais uma vez, que no caso de OS dados estarem
sao
ganizados na forma de classes, a varianca eo desv1o padrão
rina
calculados, à semnelhança do que se passa com a média, de f
aproximada:
-a 2-
(3.73)
Como também já se disse, sempre que possivel deve ser evitado
o cálculo através deste método.
A variáncia e o desvio padrao, à semelhança do que se passa
com a média, também gozam de algumas propriedades. Por con-
veniência, vamos usar o simbolo u(T) para representar a variância
empírica da variável .
Propriedades da variância e do desvio padrão
1. A variância ouo desvio padrao de uma constante c é, como
é óbvio, zero e a adiçao ou sublracçao de uma constante c a todos
os valores de uma variavel t deixa a variancla e o desvio padrão
inalterado5:
v(c) = 0 ; u(r+c) =u(r) ; v(r - c) = o(r)
Voe) = 0 ; Vo(r +o)= Vo{r); Vvr- c) =Vu(r)
(3.74)
2. A multiplicaçao (ou divisao) dos valores da variável por uma
constante conduzem a uma variäncia que ven multiplicada (div-
dida) pelo quadrado da constante e o desvio padrão vem simples
mente multiplicado (dividido) pela constante:
uca) = e vla); u()-
(c#0);
c2
(3.75)
Velcz)- c Vea)y)-vela) (c#0)
3. Supondo que os dados constituemk grupos 91,92-*
e var-
total
pectivamente, de dimensoes n1, T2, ..., nk, médias 1, T2,
anclas si, S,,tem-se a seguinte relação entre a variäncla
etAT ADENCTYA
Número
Quilometragem
mensa
de motonstas
000
6 000- 8 000
8 000- 10 000
10 000- 12 000
4
12 000-15 000
15 000-20 000
2
20 000
a) Definindo todos OS pres medidas de localizagau
supostos necessarios, construa um histograma
para estes dados e calcule as medidas de localizagaoe dispersão que
achar convenientes,
D) De um inquérito realizado dez anos antes 0DIvera-Se 0S seguintes
resultados
Média = 10 500 Kms,
Mediana = 9 500 Kms,
Desvio-padrão 3 000 Kms.
Que comparaçóes pode fazer entre os resultados dos dois inquéritos?
Em certa região, um inquérito as exploraçoes agricolas conduziu aOS seguintes
resultado0S
>20
Supericie0-2 2-4 4-8 8-20
(ha
Total
N tractores
3 ou -
27
46
100
Total
120
108 CAPTTULO 3 REDUÇÃO E SINTETIZAÇÃO DE DAe
dife
ADOS
rentes dos restantes, a medida anteror pode dar uma informa
ou
Quando os valores exxtremos (minimoe miaximo) sao muito
nuito distorcida sobre a variabilidade dos dados. Para evitar
uartis
reduzir esta distorsão, é costume uisara amplitude inter-quart:
que é msensfvel acS valores extremos:
1Q=Qs- Q:
3.60)
Para os dados do Exemplo 3.2 (ver Quadro 3.2), apesar de não
conhecerem os valores maxino e mininno, admite-se que o intervalo
de variagão é o intervalo |10; 40 cuja amplitude é igual a 30 e o
intervalo inter-quartis é o mtervalo |19. 320; 27. 964 de amplitude
1Q=27.964- 19.320= 8.644.
Desvio nédio absoluto
Tomando como reteréncia a média, a dispersao sera tanto maior
quanto malores forem os desvios de aT em relaçao a média: r; -
, i=1,2.T. Deste modo, a dispersao poderia ser medida recor-
rendo à nédia dos desvios dos valores em relaçao à média. Mas,
como a média é o centro de gravidade da distribuiçao, alguns desvios
são positivos, outros negativoS e outros, eventualmente, nulos de tal
forma que a sua soma é nula e, portanto, a sua média é ula não
nos dando qualquer informaçao sobre a dispersao. Uma maneira de
resolver esta dificuldade consIste em considerar 0s desvios em valor
absoluto: d = |zi-,i=1,2, . A correspondente medida de
dispersão designa-se por desvio médio absoluto (d) e define-se
do seguinte modo:
(3.61)
d-4-
l-2
i
Esta medida não é muito utilizada uma vez que apresenta al
gumas desvantagens devido à presença dos valores absolut0S. AS
duas medidas que se indicam a seguir, baseadas na mesma 1ded,
ellminam este problema e sao, sem dúvida, as medidas de dispersau
mais usadas na análise estatística mais avançada.
Variânciae desvio padrao
Uma alternativa aos módulos dos desvios é considerar o qua adrado
dos mesmos. Com o quadrado, elimina-se o problema do sinal
3 Medidas de concentração
Para medir a torma como determiniada caracterisica de uma população se
distrbul pelos seus olernertos, 6 muitas vezes utlizada uma medida de conce
raçho em vez de urma rmedida de dispersão. io entarto, tali so é posslvel quando
faz sertido acumular a caracteristica em estudo rum número maior ou menar
de slementos da população. Isto é, quanda a caracteristica se pode ditbuir de
modo mais ou menos uniforme e, simulitanearmente, 6 possivel conosber as se
guinites situagoes extremas:
um so elemento da populaçao detém todo o atributo (a concentrago
maxirma)
cada elemento da população detém igual parcela do atrouto (a concen
tração é minima).
Pode medir-se a concentração do rendimento familiar, da nqueza, das areas
de exploração agricola, dos salários, mas a fendmenos como a idade ou a atura
das pessoas não 6 possivel aplicar medidas de concentração. A andilise do grau
06 Concentraçao de uma distribuiçao de frequéncas pode ser teta gralcamente
atraves da Curva de Lorenz, ou atraves de um indicador numénco. o indios de
Gini
3.1. Curva d
Lorer nz
oerndo dada uma caracteristica (Y) e as respectivas frequencias th) para
ada intervalo ou classe , obtém-se a Curva
de Lorenz unindo, num reterencal
no, as frequências acumuladas para cada classe reatvamente ao tota
Cum f
com as frequências acumulagas do alnouto em estudo, tam
Dem re
vamernte ao total Cum y -Se a concertração for minima
sera uma rectarecta de gual disirbupaa
Cune
conceapP
cum F
A
Uma empresa tem 1500 clentes com os quais realizou no ütimo an
volume de negocios de 6 375 comtos. Depois de ordenar os clientes por o
crescete do volume de negócios realizado obteve a seguinte repartçac
con
Com os 120 mais pequenos realza negócios no valor de
Com os 240 seguintes
30
180
6075
945
362.5
2 250
6375
2
315
150 inaS
No total 1500 clientes comespondem a
Esta mesma repartição pode ser apresentada sob a foma C de frea
reahvas
MEDIDAS DE DISPERSÁOE DE CONCENTRAÇAO
No caso da figura A a repariçao e bastante uniforme uma vez que a 50%
iduos corresponde quase 50% do atributo em estudo. E um caso de
concentração. Na figura B a concentração é já mais elevada uma vez que
S0% de individuos detêm agora 80% do atributo. Por último, a figura C mostra-nos
oxemplo de elevada concentração: 50% dos indivíduos detêm menos de 10%
do atribulo.
3.2. Indice de Gini
Quanto maior a concentração, mais a curva traçada se afastará da recta
de igual distribuição. Quando a concentração é máxima a área da concentraçao
corresponderá ao triangulo 0AB (gráfico 20, pag. 112). Seja pi= e
F
Qum
Quanto maior for a diferença entre pi e qi maior será a concentraçao.
Baseado nesta constatação, Gini propôs o seguinte indice para medir o grau
de concentração
n-1
2(pi-q)
q
Indice de Gini
G-1
n-1
1-
n-1
2 pi
2 P
em todae de classes. O Indice de Gini varia entre 0 e 1: é nulo quando
Sendo n o número de classe distribuiçao
hviduos dlor maximo quando todo0 atnbuto esta concentrado nos
Iduos da uftima classe.
Sudo e toma o valor
sses houver igual distribuição do atributo pelos elementos em
emprse a ooncentração tem várias aplicações em estudos economicos
plo do regra dos 20/80 e o método A B. Csäo exemplos da ap
O de analise à gestão de stocks e a gestao comerciel
BIBLIOGRAFIA
BECHTOLD, B. andR. J., (1989), Statistics for Business and Economics. PWS-Kent Fu-
blishing Compar
CALOT, G. (1973, 3 ed) Cours de Statistique Descriptive. Dunod: Decision
CONOVER. W. J., (1980, 2 ed.) Pratical Nonparametric Statistics. John Wiley & Sons.
DAGNELIS. P. Estatistica Teona o Metodos. volumes e ll. Publicaçoes Europa-Ame-
rica: Biblioteca Universitária
DowniE, N. M. e R. W. HEATH, (1983, 5 ed) Basic Statistical Methods. Harper Interna
tional Editions
lLERSIC, A. R. (1964, 13 ed.) Statistics. HFL Publishers Ltd.
JESUS, F (1979), Estatistica descritiva. Ed. Aster.
KARMEL and PoLASEK, (1975) APplied Staistics for Economists. Ed. Pitman.
KAZMIER, L. (1982) Estatistica apicada a economia e administração. Ed. McGraw-Hill.
LAROUSSE, C.. (s/data) Estatistica Descritiva. Rés-Editora.
MooD, GRAYBILL and BoES. (1974, 3 ed.) Introduction to the theory of statistics.
Ed.
McGraw-Hill.
MURTEIFA, B. F. F. e G. H. J. BLACK, (1983) Estatistica Descrtiva. Ed. MoGraw-Hil.
OsSTROM, C. W. Jr., (1978) Time Series Analysis: Regression Techniques. Sage Uni
versity, Paper n 9.
PEARSON, E S. (Editor). (1978) The History of Staistics in the 17th and 18th Centu-
ries. Charles Griffin & Co. Ltd.
SANDERS, D. H., A. F. MURPH e R. J. Eng, (1984) Les Statistiques: Une Approche Nou-
velle. McGraw-Hil.
SiEGEL S.. (1956) Nonparametric Statistics for the Behavorial Sciences. McGraw-Hil.
SiMON da FoNSECA, J., G. de A. MARTINS e G. L ToLEDO, (1985, 2 ed.) Estatistica
Aplicada. Editora Atlas
SiKRHAK, B. e A. VERCASSON, (1989) Métodes Statistiques pour la Gestion. Les
Edilions
dorganisation
SLATER, HR. e P. AsOROFT, (1990) Quantitative Techniques in a Business Context.
Chap-
man & Hall
THIRKETTLE G. L. (1968) Wheldon's BuSiness Stalistics and Statstical Methods MacDo-
nald & Evans, Lid
VIEIRA, S.(1989, 6 ed) introdlução à Bioestati stica. Editora Campus, Rio de
Janeiro
245
ATI TicA DESCAIT
Eronl
Determinada empresa industrial 2, produtora de Dens de equipament
radore
ento, p
tende estudar como se distribuem as SUas vendas pelas empresas
de acordo com a dimensão destas ultimas. Fretende-se saber se as venda
distribuem de igual modo por pequenas, medias e grandes empresas cona
doras ou se as grandes empresas constituem 0S principais clientes dos t
produzidos pela empresa 2 Para tal, as empresas clientes toram distibuita
quanto a sua dimensão (o numero de empregados).
onsum
bens
Duidas
Quadro 26: Detemminação do grau de dependencia da empresa Z
Volume de
N de
enpregados erpresas vendas de 2
Y
Nümero de
pi nF
Cum F Cum Y
2078
0,15
0.01
2 078
6 695
36
8773
0,06
34
0,62
0.77
b0
99
b8
23 506
0,15
14
733
145
100
0
959
0,21
7
453
180
0.30
0,81
0,84
200- 299
220
5 261
5 485
16 831
0,34
300 3U9
400-
685
195
207
1
68 516
0,89
0,92
0,97
500- 749
215
81 376
12 860
750- 999
1 000-1 499
1 500-2 999
23 000
27 507
225
108 883
10
0,99
G.55
130 119
153 421
21 236
230
1,00
23 302
233
F-2332Y-153 421
p73
F= 1
EXERCICIOS PROPOSTOS
epresente graticamente a distribuição de frequencias da superficie agr
cola utilizando um poligono de frequênciasS
b) A partir dos principais indicadores de localizaçao, que conciuso
irar relativamente a simetria da distribuição da superficie agricola,
) Compare a distribuição da superficie agricola para as explorações que
nao tem tractores e para as que têm pelo menos um tractor, sob o ponto
de vista da dispersão,
d) Na hipótese de querer comparar a dispersão da superticie agricola com
a do numero de tractores, usaria o mesmo indicador
10.
Em certa região do pais a distribuição dos rendimentos auferidos (em contos)
pelos seus habitantes e a seguinte:
Classes
Número
de rendimentos
de habitantes
0- -60
60- -70
0- -80
-90
4
30
90- -100
100-110
110-120
a) Determine a percentagem de habitantes que recebem um vencimento no
intervalo - d + o
b) Determine a moda dos rendimentos desta populaçao.
onstrua uma curva de Lorenz para o seguinte conjunto de dados referentes a
ibuiçao da população de um distrito segundo o seu grau de riqueza.
EDOAS DE DSPERSAO EOE CONCENTACAO
Gralico 23 Curva de Lorenz para a empresa Z
Cuna de
Lorenz
1G-1-5- 0,499
,2
0,8
1,0
A curva de Lorenz permite concluir que as vendas da empresa 2 estão
relativamente concentradas nas empresas de maior dimensao, aquelas que em-
pregam 500 ou mas trabalhadores. Estas empresas constituem apenas 16% do
total dos clientes de 2, no entanto, as Suas compras correspondem a 66% do
total das vendas da empresa.
TARIADEORTVA
Gratco 21: Curva de Lorenz
100.00
64.74-
4
27,64
12,82
3,29
Cum
047
AD
90
100
Para este exemplo concreto podemos concluir que a empresa realiza metade
do seu volume de negócios com apenas 18% dos clientes e ainda que 51% dos
restantes clientes nao ultrapassam 13% do volume de negócios. No conju
estes valores indicam um grau relativamente elevado de concentração e. portanid
de dependencia, da empresa em relaçao aos seus clientes.
E possivel encontrar vários tipos de curvas conforme o grau de concentraga
seja maior ou menor, como o mostram 0S seguintes exemplos.
Gráfico 22: Diferentes tipos de curvas de Lorenz
100
100
Figurs A
gura e
14
MEDIDAS DE DISPERSAO EDE CONCENTRACA
A 8% dos cllentes correspondem 0.47% do volume de negócios
2.82%
9,53%
14,82%%
37,10%%
35,26%
167%
A 27
A1 18
A 21o
10%
Acumulando estes valores podemos retirar conclusões como as seguintes
Cum yi
Cum
8% dos clientes correspondem a
24
51
0,47% do volume de negócios
3,29%
12,82
27,64%
74%
90%
100,00%
1007
Ea parir da representação gráfica destas frequéncias acumuladas que se
oolem a Curva de Lorenz. No eixo das abcissas colocam-se os valores acumu-
as, em termos relativos, do número de ocorrências (cum f; no exo das
ddds colocam-se os valores correspondentes relativos ao atributo em estu-
StE exemplo, as percentagens acumuladas de clientes (cum ).
Ordenadas
ADCISsasS
Pontos
O.00
0,4/
3,29
12.82
1
64,
100,00
Com
ação ou curva de Lorena
Sentação gráfica destes pontos obtem-se a curva de conce
113
CATUL05 EXERCICIOS PROPOSTOS
Defina os conceitos de:
1.1. Intervalo de variação:
1.2. Intervalo interquarntis:
1.3. Desvio absoluto médio,
1.4. Variancia;
1.5. Desvio-padrao
1.6. Coeficiente de variaçao.
Quais as vantagens e desvantagens da utilzaçao de cada uma das mediday
anteriores?
2.
Para que tipo de vanaveis e possivel construir uma curva de Lorenz?
4
Em que condiçóes a curva de Lorenz se assemeina a uma recta? Que nom
da a essa recta?
Diga. justificando, se é verdadeira ou talsa, a seguinte afirmação
Se o intervalo de vanação de uma certa vaniavel tor de 325, então a sua dispersile
égrande
6
Para a análise da estrutura salarial da industria tëxtil em Portugal, inquinram
500 individuos sobre a renumeração mensal que auferem, tendo-se obtido mo
mação, que depois de classificada, deu origem ao seguinte quadro
Classes salariais
Numero
(Contos)
de trabaihadores
15-20
20-25
3u
150
30
25
40-
40
20
118
DADOS
116 CAPÍTULO 3. REDUÇAO E SINTETTZAÇÃO DE DA
O momento de ordem k , centrado na média, define-se co.
média das potências k dos desvios doS valores da variável em wela
média
res da varavel em relaçāo
n= r,- 7)* ou m n,(r-a); k=1,2.
3.87)
O prinero momento centrado na medla nao tem qualque in
teresse uma vez que e sempre nulo.
De facto, como se viu nas propriedades da média,
m= -T)=0 ou mi = n(at-T) =0 (3.88
j1
O momento centrado na média mais importante é o segundo
monento que é a variáncia
ma= (7-7= ou m n(7-a (3.89)
j-1
Os momentos centrados na media Sao importantes nomeada
mente para o estudo da assImebria (OS momentos impares, em par
ticular o momento de orden tres) e do achatamento (momentos
pares, emn particular o momento de ordem quatro), estudo que se
faz mais adiante.
3.5.4 Concentração: Indice de Gini e curvas de
Lorenz
Uma questão relacionada com a dispersão ou variabilidade é a con
centraçao do atributo nos elementos que constituem o agregado.
Exemplos de atributos onde frequentemente tem interesse o t
em
tudo da concentraçao sao o rendimento e a riqueza mas pou
coisiderar-se outros como a maior ou menor concentraçao le ca
ilita
pital ou trabalho nuns sectores do que em outros. Para 13
a analise, pensemos no atributo rendimento. O rendimeto p
estar maIs ou menos concentrado em alguns dos elementos do a
gado (da populaçao). Dois casos extremos podem ser consdero
dos
3.5. MEDIDAS DE DISPERSAO E DE CONCENTRAÇÃO 117
o caso em que O auibuto esta 1gualmente repartido pelos elemen
tos da populaçaO e o casO em que todo o rendimento está concen-
trado num dos cOmponentes da população. Quando o atributo está
igualmente repartido pelos elementos do agregado, a variabilidade
é nula, ao passo que quando o atributo está concentrado num so
dos elementos a variabilidade é muito maior.
Considere-se o caso de uma distribuição de frequências com m
classes 1j (=1,2, *., m), 1j=j-1:}| e frequências n. Designe-
se o total do atributo (da variável) dos elementos da classe 1; por tj.
Quando não se dispoe dos valores do atributo de cada elemento da
classe pode proceder-se à sua estimaçao considerando que todoS Os
elementOs da classe têm valor igual ao ponto médio da classe, 1sto
é, t n;. Calculem-se os valores acumulados das frequencias
relativas e os valores acumulados do atributo como proporção do
total. Deste modo, O valor acumulado das frequências relativas até
à classe (Pi) vem dado por
)
p2
= 1,2,.., m
(3.90)
eo valor acumulado do atributo, como proporçao do total, até à
classe 2, (9), por:
i = 1,2,.., m
(3.91)
i
k=l
Para uma melhor compreensão da medida da concentraçao, inter-
pretem-se os valores p; e gi do seguinte modo: Pi representa a pro-
porçao de elementos no total que têm valores do atributo inferiores
ou iguas ao limite superior da 2-ésima classe e gi a proporçao em re-
laçao ao total do atributo que é detida por aqueles elementos. Pode
mostrar-se que, quando a variável toma sempre valores positivos se
têm as seguintes desigualdades:
0qSl
(3.92)
Pi29
0SPS1
118 CAPÍTULO 3. REDUÇAO E SINTETZAÇAO DE DADO
Se os valores de pi Sao semelhantes aOs valores qi , a distribuie
içao
do atributo pela populaçao esta pouco concentrada ou, no cas
pela
CAsO de
os mesmos serem iguais, o atributo esta igualmente repartido n
populaçao. Pelo contrário, se os P; Sao muito diferentes dos
quando
então a concentraçao do atributo é elevada, sendo máxima q
todos os m-1 primeiros qi Sao ulos e, ODVlaimente, qm=1. F
tas ideias vão permitir-nos construir uma medida da concentracão
considerando as diferenças entre oS pi e os qi Esta medida, de.
nominada coeficiente de concentraçao de Gmi, representa-se
por G e deline-se do seguinte modo
Pi-4)
G=
(3.93)
m
Pi
Pi
i1
Esta medida, como é fácil de verilicar, tem as seguintes pro-
priedades:
1. G= 0 na situação de igual repartiçao do atributo pois, neste
caso, Pi4 =1,2, ..., m
2. G=l quando a concentraça0 é máxima, isto é, quando
qi=0;i=1,2,.., m-1
3. 0< G<leétanto maor quant0 maior é a concentraçao.
A concentraçao pode representar-se graficamente. Para tal repre
sentem-se, num sistema de exos, os pontos de coordenadas (0,0)
P1,1),.. Pm-1,Qm-1), (1, 1) e unam-se com segmentos de recta
obtendo-se assim uma linha poligonal. Quando se faz tender o
mimero de classes para infinito com a amplitude a tender pard
Zero, esta linha poligonal tende para uma curva limite conheciua
por curva de Lorenz. Deste modo, aquela linha poligonal repte
senta uma aproximaçao à curva de Lorenz.
Os pontos são representados num quadrado de lado 1gla
unidade e a recta definida pela união dos pontos em que
tem
Pi= (diagonal do quadrado) representa a recta de 18ua dis
tribuiçao. A área compreendida entre a aproximaçao a Cu
rva
coel
Lorenz e a recta de igual repartição está relacionada co
Ciente de Gini. Quanto maior é esta área maior é a coneeu
entraçao
3.5.
MEDIDAS DE DISPERSAO E DE CONCENTRAÇÃO 119
Como aplicaçao, vai estudar-se a distribuição do rendimento de
um conjunto de famflas.
Exemplo 3.3
Admita-se que a distribuiçao do rendimento das famlias mima
certa cidade e a que se encontra no Quadro 3.3.
Quadro 3.3: Distribuição do rendimento
das lamilias numa certa cidade
Classes
Frequências s00 200 150 10040 10
0-10 10-20 20-30 30-40 40-50 50-60
Para se estudar se existe desigualdade na repartiçao do rendi-
mento nesta cidade, vai caleular-se o coeficiente de Gini. No Quadro
3.4 apresentam-se os valores necessários para o cálculo deste coefi-
ciente.
Quadro 3.4: Cálculos auxiliares para a
determinação do coeficiente de Gini
2500 0. 166
364
613
0-10
10-20 200 0.20 0.70 15
20 30 150 0.15 0.85 25
30-40 100 0.10 0.95 35
40-50 40 0.04 0.99 45
50-60 10 0.01 1.00 55
Soma 1000 1.00 4.99 151003.951
500 0.50 0.50 5
3000
3750
0. 844
964
3500
1800
550
000
O exame das colunas dos valores de p, (coluna 4) e de q. (nltima
cOlna) permite-nos concluir que as famílias com rendmentos nle-
ores ou iguais a 10 representam 50% do total e possuem 16, 670 do
enciinento total, que as famlias com rendimentos até 20 sao 700
do total e auferem 36, 4% do rendimento total, e assin sucessi va
Inente.
120 CAPÍTULO 3 REDUCAOE SINTETIZAÇAO DE DADOs
A comparação dos valores destas dlas coluns dá-nosale
indicação sobre a desigualdade na repartiçao do rendinegt
ae oi
pequena. O valor do coeiciente de ini (G) lornece informa,
deste
lamilias, mas nao permite concir se a desigualdade é Cr
sobre esta questao. Os valores necessarios para o cáleulo d
rattz
fndice encontram-se nas sonas dlaquelas colinas apÓs a subtra
de uma unidade a cada (valor da ultima classe que nao entra
cálculo da soma dos p, e dos qi). Ten-se entao
2.96 0.260
G 3.99
(3.95)
O valor obtido para o coeficiente G e relativanente diferente de
zero mas nao muito próximo da unidade. Consequentemente, eiy
te alguma desigualdade na repartiçao do rendimento, Inas a mestna
não é muito forte, como se pode constatar também, gralicarneste
pela área entre a diagonal do quadrado (linha de igual reparticão)e
a linha poligonal (aproximaçao da curva de Lorenz) na Figura 33
p.3
0.5
04
03
02
01
1 02 03 04 05 06 07 08 08 1
Figura 3.3: Representacião da curva de Loreuz (apru
3.6. MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO 121
3.6 Medidas de assimetria e de achata-
mento
A assimetria e o achatamento ou curtose de uma distribuiçao
são outros dois Spectos das distribuiçoes que interessa estudar.
Na primeira subsecgao, apresentam-se várias medidas de assime-
tria quer recorrencdo a posiçao das medidas de localizaçao (média,
mediana e moda)e aos quartis quer recorrendo aos momentos e,
na segunda, introduZ-se uma medida de achatamento baseada nos
momentos.
3.6.1
Medidas de assinetria
A semelhança do que se passa com a dispersao, a assimetria pode
ser medida recorrendo a medidas absolutas ou a medidas relati-
vas. Estas iltimas são as mais interessantes e são as inicas que
vao ser apresentadas.As mnedidas de localizaçao média, mediana
moda podem ser Usadas, quando evidentemente faz sentido definir
estas medidas, para caracterizar a assimetria de uma dada dis-
tribuiçao de frequências. Estas trés medidas coincidem no caso
de uma distribuiçao simétrica: r= me=mo. No caso de uma
distribuiçao assimétrica positiva ou enviesada à esquerda
tem-se >me , e no caso de assimetria negativa ou en
viesada à direita tem-se T< m, < mo
Tomando partido desta informaçao, podem definir-se medidas
de assimetria. Uma primeira medida é o denominado coeficiente
de assimetria de Pearson
T-1lo
(3.95)
s
que e nulo no caso de uma distribuiçao simétrica e positivo ou
Iegativo consoante a assimetria é poSitiva ou negativa. Fsta medida
depende de todas as observaçoes pelo que a mesma e nfhenclada
pela existência de outliers. Uma medida menos sensível à presença
de oulhers é a medida proposta por Bowley delinicla recorrendo à
mecdianae aos quartis
dQ-Q)-Q-Q
g- (Q-Q)+(Q-Q)
(3.96)
TIZAÇAO DE DADos
122 CAPÍTULO 3. REDUÇAO E SINTETIZAÇÃO DEE
Este coeficiente é ulo em distribiiçoes simétricas pois
içao
gativa
caso, temn-se Qs Q2= Q2-1. Quando a distribujica
simétrica tem-se Q3-Q2 <Q2-Q1 no caso de assimetria neae
neste
é a
e Qs-Q2 > Q2-Q1quando é assinetrica positiva o q
valores de g, respectivamente, negativOs ou positivos.
todos nulos pois os desvios poSitivos seao conpensados pelos de
negativos. Se a distribuiçaoe assimetrica negativa (enviesa
uerda)
Se a distribuição é simétrica, os momentos de ordem ímes
esada à
tos negativos e se é assinetrica positiva (enviesada à esqmer
para
predominam os desvios positIvos iImplicando valores positivos
recorre-
direita) predominam os desVIOs negativos dando lugar
estes momentos. Para a definiçao de medidas de assimetria,
se ao monento de ordem impar nais baixo, ou seja, ao terceiro
ente de
,
mento pois o primeiro, como se viu, e sempre nulo. O coeficient
assimetria que se usa frequentenente deine-se do seguinte modo:
TTU3
TnG
b
91Vb=
3/2
3.97)
ou
onde m2 éa variáncla e ma eo Lerceiro moment0 centrado na média
(3.98)
ma- -2 u ma- -7)
j-
O coeficiente gi tem a vantagem de dar o sinal da assimetra:
positiva ou negativa. Claro que quando a distribuiçao é simétna
tem-se gi =0 pois mg=0.
Em resumo:
Sinetria
=m= TTo g=0 g=0 91
0
Assimetria negativa T<m, < m g<0 g<U 9
Assimetria positiva I>m mg>0 g>0 g1
3.9
26. MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO 123
Seguidamente vao considerar-se alguns exemplos de distribuiçoes
simétricas e assimétricas.
Exemplo 3.4
A distribuiçao de todas as notas (positivas e negativas) de 120
alunos que compeareceram a una certa prova de avaliação indica-se
no Quadro 3.5.
Quadro 3.5: Distribuição das notas
de uma prova de avaliação
Classes (
Frequências (7) 6 9
0-4 14-8 ||812 |12-16 ||16-20
90 9
6
Como se pode verificar pelas frequências, trata-se de uma dis-
tribuição simétrica. Este facto vai confirmar-se pela obtenção dos
valores dos vários indicadores de assimetria (simetria) apresenta-
los. Para facilitar os cálculos dos mestnos, elaborou-se o Quadro 3.6
baixo onde se indicam alguns cáleulos necessários para a obtenção
los coeficientes de assimetria:
Quadro 3.6: Cálculos para obtenção
dos coeficientes de assimetria
Classes FG)y -n, -n,
0-4
J-8
-3072
84
0.050 12
60.050
9 0.07
-576
0.125 51
0.875 900
8-12 10 90 0.750
376
0.950
126
12-16 14 90.075
J16-20 1s 0.050
3072
381
LO00
108
1200
100
Soma 120 1.000
121 CAPÍTULO 3 REDUÇÃO E SINTETIZAÇÃO DE DADoo
O primeiro aspecto considerado é a comparaçao das trés medida
de localização, a média, a mediana e a moda da distribuição
são todas iguais: T = memo10.
das
que
T =120 n= 20= 10
0.5-0.125 x 4= 10
me T 0.875-0.125
mo oT 0.075+0.075
8+ X 4 = 10
Para o cálculo do coeficiente de assimetria de Pearson (g) é
necessário conhecer ainda o desvio padrao e, portanto, a variancia
ou segundo momento centrado na média
190 7n,=088
mm2
O coeficiente de assimetria de Pearson é, evidentemente, nulo:
10-10
I=
V8.8
Calculem-se agorao coeficiente de Bowley (9') eo coeficiente de
Simetria gi. Para o primeiro, sao necessários Os quartis e, para
segundo, além da variância já calculada, é necessário o terceiro
omento centrado na média.
Q1=8+ 01 x4 = 8. 667
Qg = 8 + -01x 4 =11.333
Tm3
26 MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO 125
Com estes valores vem, para os coeficientes g e gi:
(11.333 -10)-(10- 8.667)
=0
g(11.333 10) + (10-8.667)
=0
91 8.813
o que indica, mals uma veZ, que a distribuiçao é simétrica.
No Exemplo 3.5 apresenta-se uma distribuição enviesada à es-
querda ou assimetrica positiva.
Exemplo 3.5
A distribuiçao das notas dos 150 alunos com nota positiva (nota
superior a 9.4) numa dada disciplina apresenta-se no Quadro 3.7.
Quadro 3.7: Notas posilivas numa dada disciplina
Classes (;)19.4-11.4]| 11.4-13.4| ]13.4-15.41| ]15.4-17.4) ]17.4-19.4]
15
Freq. (7) 75 45
A partir destes dados obtiveram-se os valores que constam no
Quadro 3.8 e que va0 servir para caleular os diferentes coeficientes
de assimetria.
Quadro 3.8: Cálculos para obtenção de
coeficientes de assimetria (positiva)
P,) n -T)n, -7)n
211.6 355.522
Classes 7
19.4-11.4] 10.4 75
j11.4-13.4) 12.4 45
J13.4-15.41144 15
]15.4-17.4164
17.4-19.4] 184 6 0.04
Soma 150 1.000
0.50 780.0
558.0
0.50
4.608
1.475
0.30
0.80
216.0
80.7
187.308
0.10
0.90
167.9
5.594
0.96
147.6
0.06
110.4
239.654 1514.616
1.000
1812.0 704.640 2073. 371
A média, a mediana e a moda são diferentes e tem os valores
seguintes:
1812.0 = 12.08; m= 9.4 + x2 11.4
0.5-0
0.50-0
*0.50-0.30)+(0.50-0) * 2= 10.829
ou
mo=9.4+ x 2 10.6
L.50 +0
126 CAPÍTULO 3. REDUÇÃO E SINTETIZAÇAO DE ADOS
entre os
Oque evidencia assimetria e, como se tem a seguinte relacão e
valores das mesmas: t > me>mo rata-se de assimetria posi
Confirme-se este facto recorrendo ao calclo dos coeficientes e tercero
ge g1, mas antes calculem-se oS quartis e os segundo e ters
momentos centrados na média.
Q19.4 +0x2= 10.4
Q3=11.4 +O500530x 2= 13. 067
mo= =4. 698 ; m3
2073. 371 =13.822
150
m2 150
Tem-se entao
g - 12.08-10.6= 0. 683; 91
g y4.698
13.822 1.357
4.6981.
-11.4)-(11. 4-10.4) =0.250
9 (13.067-11.4)+(11. 4-10. 4)
todos positivos indicando tratar-se de assimetria positiva. Veja-
se agora um exemplo de uma distribuição enviesada à direita o
assimétrica negativa.
Exemplo 3.6
No Quadro 3.9 apresenta-se a distribuição das notas de uma
amostra de 1500 alunos que desejam cursar Medicina em Portugal.
Quadro 3.9: Notas de alunos candidatos
ao curso de Medicina
Classes ;)
[10-12] 112-14) ]14-16) J16-18 18-20
Frequências (,) 120 180 240 580
No Quadro 3.10 indicam-se alguns dos cálculos necessáris p
obter alguns dos coeficientes de assimetria.
3.6. MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO 127
Quadro 3.10: Cáleulos para obtenção de
coeficientes de assimetria (negativa)
Classes
10-12)
11 120 0.0S 0.08
1320
3278. 583
-17137. 156
J12-14)
IS0 0.12
0.20
2340
1874. 435
-6048. 802
J14-16) 15 250 0.166
0.36
3600
361.
27
443. 348
16-18 17 5S00.39
0.75
9860
346. 567
267.1
96
Js-2019 30 0.25
Soma 1500 1.00
L.00
7220
8102. 64
922.021
24340 8782. 933
15258.646
A média, a mediana e a moda das notas são as seguintes:
T= = 16. 227
ne16+5-036 x2 16.718
mo D T (039-0.16)+(0.39-0.25) X 2 = 17. 243
0.75-0.36
0.39-0. 16
Estas medidas verificam a relação <me mo, a qual
caracteriza uma distribuição enviesada à direita ou assimétrica ne-
gativa. Este facto é confirmado também pelo coeficiente de assime
tria de Pearson. Com efeito, coma variáncia (ou ma) dada por
8782.933 -5.855
T2
1500
vem, para o coeficiente g :
16.227 17. 243-0.420
V5. 855
Para calcular o coeficiente de Bowley são precisos os valores dos
quartis:
Q=14+ x2= 14. 625
Q-16+ x2= 18.0
128 CAPTTULO3 REDUÇAO E SINTETIZAÇAO DE DADO
Com estes valores e com a 1nectaana, alras caeulada, tem-se
o coeficiente de Bowley:
(18-16. 718)-(16. 718-14.625)
(1S-16.718) +(16. 718-14.625)
-0.240
Finanente, para o caleulo do coeieiente gi e preciso, além do
momento centrado de ordem 2, o omento centrado de ordem 3
que se obtem laciluiente do quadro anterior:
15258.610-10.172
1500
Tem-se então
-10. 172
91 5.8551
-0.718
Todas as medidas de assimetria consideradas indicam tratar-se
de uma distribuiçao assimétrica negativa.
3.6.2 Medidas de achatamento
Quando se consideram momentos de ordem par, as potências pares
eliminam o sinal dos desvios pelo que estes momentos medem varn
abilidade e não assimetria. Para medir o achatamento us-se
frequentemente una medida definida à custa do quarto momento
ba
92ba -3
(3.100)
onde m é o quarto momento centrado na mélia
m- -7 ou m= »-7 3.1 101)
O coeficiente g2 compara o achatamento de uma distrDu
com o achatamento de uma distribuição padrão cuja eurva
le fre
uencias(teórica) tem a forma de sino e que é designada po
dis-
tribuiçao de Gauss. Nesta distribuição, o coeficiente teor
o or
respondente ao coeficiente empirico by é igual a3. Deste no
, oo
26 MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO 129
o coeficiente g2 COmpara-se o achatamento de uma dada distribuição
com o achatamemto de uma distribuição Gaussiana.
As distribuiçoes com 92 0 tem achatamento idêntico ao da
curva Gaussiana e designam-se pOr mesocúrticas, as com g20
têm menor achalamento do que a Gaussiana e denominam-se le-
ptocúrticas e as com g2 <0 sao mais achatadas do que a Gaus
siana e dizem-se platicúrticas.
Em resumo, as distribuiçoes classificam-se, quanto ao achata-
mento, em:
mesocúrticas (idênticas à Gaussiana)
platicúrticas (mais achatadas do que a Gaussiana)
- leptocúrticas (menos achatadas do que a Gaussiana) 92>0
=0
92 <0
(3.102)
Como exemplo, considere-se a distribuição do Exemplo 3.4. Para
o cálculo do coeficiente de achatamento (92) são necessários os m0-
mentos ma e ma. Como ma já foi calculado, obtenha-se o valor de
m Tecorrendo aos cálculos indicados na última coluna do Quadro
3.11:
Quadro 3.11: Cáleulos para obtenção
do coeficiente de achatamento
Classes an, n(-)n, -)a,
0-4 2 60.050
J4-8) 6
8-12
381
215T6
12
2301
90.075
900
0
10 90 0.750
2301
126
141
J12-161119 0.076
J16-20 18 6 0.050
21876
381
108
53760
1086
Soma
120 1.000 1200
Tem-se entao
53760
448.0
-'ny=
120
120
j-1
ADOS
130 CAPÍTULO 3. REDUÇAO E SINTETIZAÇÃO DE DAT
seginte
Com este valor de m4 e com o valor de mą, obtém-se o se
valor peara o coeficiente 92,
448.0
92 8.82
-3 5. 785 3 =2. 785>0
O sinal positivo significa que se trata de uma distribuição menos
achatada do que a distribuiçao de Gauss, 1sto e, uma distribuican
leptocúrtica.
nçao
3.7
Exercícios sobre o capítulo 3
3.1 Para efeitos de controlo de qualidade de um certo artigo ven.
dido em caixas de 10 unidades, uma empresa decidiu observar
O número de artigos deteituosos em 100 caixas tendo obtido
OS seguintes resultados:
0 1 2 1 3 2 1 4 15 2 2124 2 3 15 2
1 3 4 21 3 2 324 25 3 20 2 3 2 3
5 2 13 2 2 1 2 31 0 3 2 3 21 3 4 1
1 2 0 1 3 4 25 1 3 2 21 20 3 1 2 3
2 1 2 2 3 2 1 2 41 2 4 3 4 1 4 2 21 2
a) Obtenha a distribuiçao de frequèncias empírica do núimero de
artigos defeituosos e represente-a graficamente;
b) Recorrendo às funçoes cumulativas de frequências, diga qual
a proporçao de caixas na amostra que têm quando muto0
artigos defeituosos e qual o número de caixas na amostra co
pelo menos 3 artigos defeituosos ? Represente, graficamente
as funçoes cumulativas de frequências
C) al o valor típico desta amostra ? E o número médio e
arigos comn defeito? Pode dizer-se que a mediana coinetde
nesta amostra, coma média? Justifique.
87. EXERCICIOS SOBRE O CAPÍTULO 3
131
2 Os salários mensals (em contos) dos operários de uma lábrica
sao os seguinteS:
50 35 90 45 80 38 42 110 100 60
55 70 38 120 50 35 125 115 95 90
85 75 72
50 48 45 150 70 75 155
62 68 70 75 83 92 85 140 145 90
a) Agrupe os dados em 8 classes de amplitude constantee obte-
nha o quadro de Irequencias dos salários mensais da reterida
fábrica;
b) Represente graficamente a distribuição de frequências;
c) Obtenha a funçao cumulativa de frequências para os imites
das classes e laça a representaçao gráfica do respectivo polf-
gono ntegral;
d) Calcule o salário médio, o salário mediano e a moda da dis-
tribuição dos salários.
3.3 As notas da disciplina Estatística Deseritiva de uma amostra de
20 alunos foram as seguintes (sem arredondamentos e numa
escala de 0 a 20):
7.0 14.2 9.3 13.5 8.2 11.8 4.2 15.8 10.4 12.6
9.5 10.5 6.4 16.6 10.2 9.8 8.0 15.0 14.3 17.7
a) Quala nota média e qual a variância da distribuiçao das notas
desta amostra ?
b) Proceda ao agrupamento destas notas em 4 classes assim
definidas: notas não superiores a 3, superiores a 5 mas nao
Superiores a 10; superiores a 10 mas quando muito iguais a l5;
Superiores a l5 e calcule, a partir dos dados agrupados, a mé-
dia e a variância. O que conclui da comparaçao dos resultados
desta alínea com Os da alínea anterior?
Cverihque se se passa o mesmo com a mediana
132 CAPÍTULO 3. REDUCÃO E SINTETIZAÇAO DE DAD
DOS
3.4 O Investimento de um grupo de indústrias ligadas ao sers
agricola apresentou, em 1999, Os seguintes Valores (em
lhares de contos)
430 535 590 670 850 380 525 570 660 790
720 630 555 500 560 640 500 520 350 520
400 530 585 665 570 770 470 550 630 710
700 625 540 465 620 695 540 680 465 615
645 720 495 550 635 810 580 425 670 530
a) Construa um quadro de distribuição de frequências com5
classes de amplitude constante;
b) Construa um quadro de distribuição de frequências com 10
classes de amplitude constante;
c) Calcule, pela fórmula de King, o valor da moda nas situacões
de a) e de b).
Comente os) resultado(s) que obteve. Critique.
3.5 Para estudar a distribuição do rendimento anual das famílias de
um dado país observaram-se os rendimentos de 5000 familias
tendo-se classificado os resultados nas seguintes classes (em
milhares de contos)
Classes rendimento ]0;3]| 13;6] 16;9] | 19;12
Número de famílias 500 1500 2500 500
a) Obtenha os valores médio e mediano do rendimento das fam-
lias que foram objecto desta amostra e calcule a percentagem
de famílias desta amostra que têm rendimentos superiores a
média;
b) Qual a percentagem de famílias desta amostra que têm ren
mentos inferiores ou iguais à moda ;
c) Qual o rendimento médio das 30% de famílias de rendimen
mais baixOs ? E o rendimento médio das 30% de famillas
rendimentos mais altos?
3.7. EXERCICTOS SOBRE O CAPÍTULO 3
133
d) Caleule a var1ánca e o desvio jpadrao do rendimento.
3.6 No quadro seguinte apresenta-8e a distribuicão das notas de
exame de 200 alunos de uma determinada disciplina:
Classes
0:8 8; 10 |10; 12|12;1414;20
Frequências 20 60
80 30 10
a) Calcule a nota média e a percentagem de alunos que tem
classificaçoes inleriores ou iguais a esta nota,
b) Relacionando os valores da média, da mediana e da moda, o
que pode dizer quanto à simnetria ou assimetria da distribuiçao
das notas;
c) Obtenha e interprete o valor do coeficiente de variação
d) Calcule a amplitude do intervalo entre o décimo e o nonagésimo
percentil;
e) Determine a nota máxima dos 25% de alunos com notas mais
baixas e a nota mínima dos 25% de alunos com notas mais
altas.
.7 No quadro seguinte apresenta-se a distribuiçao do imposto s0-
bre o rendimento (IRS) relativo a 100 milhares de pessoas:
Impostos (u.m.)n° de indivíduos
(classes)
0-20
20 40
40 60
60-80
80 100
100 120
(milhares)
30
25
15
13
12
5
Calcule o coeficiente de variação e interprete-o
Verifique se existe desigualdade na distribuição dos impostos.
Comente
ADOS
131 CAPTULO 3. REDUÇAO E SINTETIZAÇÃO DE DA
c) Se o governo decidir cobrar um mposto adicional d
por pess0, qual é o desvio pacrao da distribuição dos
mpos
tos
d) Qual será a variáncia se se deCidr aunentar oS impostos
20%?
e) Recorrendo a indicadores baseados nos momentos da vel
imposto, classifique a distribuiçao quanto à simetria e quanto
a0 achatamento.
3.8 Com o objectivo de estudara concentração do pessoal nas em-
presas (estabelecimentos) dos ramos têxtil e metalurgia
base, obtiveram-se as seguintes inlormaçoes:
de
empresas metalúirgicas
classes n estab. | pessoal
empresas têxteis
classes n estab. | pessoal
3-20
20-50
50-100
100-200
200-500
J500-1000]
3-20
20-50
50-100
19109 ]100-200]
28440 1200-500]
28289 500-1000
824
7887
36
357
256
8375
16
538
180
12956
10
717
136
1039
91
1529
40
607
1000
16
22410
Compare o grau de concentração nestas duas indústrias. Co-
nente.
.9 As distribuições do rendimento anual individual (em milhares
de dólares) de dois países sao as seguintes:
País
A
País B
Rencimento População Rendimento Populaao
nil dólares) (millhares) (mil dólares) (milhares)
0.6-0.9
J0.9-1.2
1.2 1.5
1.5 1.8
]1.8-2.1]
2.1-2.4
2.4-2.7]
0.8-1.0
1.0-1.2
1.2-1.4
1.4-1.6)
1.6-2.0
2.0-2.2
30
10
80
20
40
50
10
20
15
10
a7 EXERCICIOS SOBRE O CAPÍTULO 3
135
)Fundamente, empregando o caleulo das estatísticas que achar
conveniente, o 8rau de desenvolvmento de um país relativa-
mente ao outro. Discuta 0s resultados a que chegou;
b) Calcule o rendimento médio dos 30 % da população de maiores
rendimentos em cada pais. Compare e discuta os resultados;
c) RealiZe o mesino calculo para os 40% da população de menores
rendimentos;
d) Qual é o rendimento médio dos dois países em conjunto?
e) Supondo que o país B desvaloriza a sua moeda em 30% em re-
lação ao dólar e o país A em 5%, calcule os novos rendimentos
médios nos dos paises.
3.10 A partir da igualdade
L-1
m-1
deduza a seguinte fórmula de cálculo da moda
-
motf-f")+U -f"
3.11 Mostre que a média de uma variável se pode caleular recor-
rendo à média dos desvios em relação a uma constante arbi
trária c de acordo com a seguinte fórmula
-
7-ct
una variável em relação a uma constante c é mínina quando
esta constante é a média da variável.
3.12 Mostre
que a média dos quadrados dos desvios dos valores de
ADOS
CAPÍTULO 3. REDUÇAO E SINTETIZAÇAO DE DAn
3 Mostre que a variância da amostra de n valores (1. a
se pode caleular pela seguinte fórmula
n valores (t1,t2 )
= ? - (a
4 Mostre que entre a variancia (s") ea variancia corrigida (s2
existe a relaçao
-1)2
e que a variância corrigida tambem se pode calcular pela fór.
mula
Bibliografia
Calot, G. (1973) Cours de Statistique Descriptive, Dunod, Paris.
Dillon, W.R. e Goldstein, M. (1984) Multivariate Analysis
Methods and Applications, John Wiley.
Gourieroux, C. e Monfort, A. (1990) Séries Temporelles et
Modeles Dynamiques, Economica, Paris.
Hamilton, L. C.(1990) Modern Data Analysis, Brooks/Cole, Pa-
cific Grove.
Hogg,R. e Tanis, E. (2001) Probability and Statistical Inference,
6 ed., Prentice Hall.
Jesus, F. (1979) Estatística Descritiva, Aster, Lisboa.
Jobson, J. D. (1992) Applied Multivariate Data Analysis, Volu-
me I: Categorical and Multivariate Methods,Springer-Verlag.
Johnson, R. A. e Wichern, D. W. (1992) Applied Multivari-
ate Statistical Analysis, 3" ed., Prentice-Hall.
Kachigan, S. K. (1986) Statistical Analysis-An Interdisciplinary
Introduction to Univariate 8 Multivariate Methods, Radius
Press, New York.
Larson, H. J. (1982) Introduction to Probability Theory and Sta-
tistical Inference, 3 ed., John Wiley & Sons.
Mardia, K. , J. Kent e J. Bibby (1979) Multivariate Analysis,
Academic Press, London.
Morrison, D. (1990) Multivariate Statistical Methods, MeGraw
Hill.
Murteira,B. e Black, G. (1983) Estatísticn Descritiva, MeGraw
- Hill, Lisboa.
- 29
oreso endo com o aunento da conc entraçao.
Rep res ent ando gràfic ameante estes conceitos, de acoTdo
com o proc es so seguido por Lorenz, tem-se o seguinte grå-
ficot
Fig. 7.4
4
1
Pi
A érea trac ej ada dá-se o nome de drea de conc entracãpj
a curva designa-se por curva de conc entracão de Lorenz, t a
recta di agcnal do quadrado será a recta de igual distribui
A mácima ccnc ent ração equivalerá a uma curva que dege-
nera nos dois cat et os dc triangulo ABC.
7.3.4-Corret acão e regress ãp
Sup onha-se que se pcssu em duas amostras de obs ervações
(2* yy)e(yY2***,Jy) que se submet em a uma clag
SHOT ON AS6
OOitel DUAL CAMERA
- 28
oias absolut as de detent ores do mesmo.
Sejam F, a frequênc i.as abeolut as dos det ent ores
Y, 08 val ores do atribut o correspond ente aquel es det ent ore
Bnt ão
(7-3.3.1)
P
em que m 6o ndmero de ol ass es, Berão, respectivament e, a&
proporção de det ent ores do atributo oom intens id ad e inferior
a L(1imite superior da cl asse de atribut o) e a proporgãc
da totalidade do atributo poseufda peloe mesmos.
E olaro que se verific a Bemp re
(1 1,2,eoegm)
Gini oriou um indice de c onc ent ração base ado nest e8 de-
finições que 6 o Beguint e
ml
P4
(7-3-3.2)
R=
P4
Ber& igual a o no o880 de igual distribuição (P 1
gual & 1quando houver nécima conoent raç ao(
() Y
ponto médio da classe
OOitel DUAL CAMERA
momen tOs
diminuir o erro de tabulagem
ter-se-d
m m2
-
AP-*2a0
-
7.3.3- Conc entracão.
Bm certos em-aert.ca ee tud os comparam-se oe detentores
de um atributo com a quant id ad e de atribut o que lhes resp ei
ta
Por exemplo, em economia, isso sucede çorrent ement e de
vido aos estud os de conc entração da riquez a, das importações
ou import ações, etc . .
Sup onha-se ant ão que se olas sific avam as observações e
lativas ao stributo, indic and o as correspoandent es frequen
OO SHOT ON AS6
O0itel DUAL CAMERA

Você também pode gostar