Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUO ESTATSTICA
Prof. Paulo Renato Alves Firmino
Lista de exerccios resolvidos Estatstica Descritiva
1. Para cada uma das afirmaes a seguir, diga se ela est correta e justifique sua resposta:
(a) Para inferir sobre a moda de uma varivel contnua a partir de uma amostra de
observaes, basta destacar aquele valor que mais se repete. (b) Em se tratando de
variveis contnuas, o cmputo do IQV (ndice qualitativo de variao) no faz uso de
distribuies de frequncias. (c) A distribuio de frequncias acumuladas de uma
varivel pode ser util para a obteno da sua mediana. (d) Grficos de Pareto so uteis
para melhor esboar a distribuio de frequncias de variveis qualitativas nominais. (e)
Histogramas so uteis para esboar a distribuio de frequncias de variveis
qualitativas.
2. De maneira a administrar o problema da aftosa do rebanho de dado agricultor, seus 10
bovinos foram estudados, resultando nos dados a seguir:
Indivduo
N de reincidncias de vrus
Peso (Kg)
10
208.3 157.5 98.7 121.2 134.9 216.5 136.7 66.2 139.1 130.5
Idade (meses)
38.8
26.6 10.9
17.1
20.8
40.7
21.3
1.0
21.9
19.6
Gnero
Nvel de estresse
Atual condio
Gnero:
0 - Feminino,
1 - Masculino
Legenda
Nvel de estresse:
1- desprezvel, 2 - baixo, 3 - moderado, 4 - elevado, 5
alarmante
Atual condio:
0 - sem aftosa,
1 - com aftosa
Pergunta-se: (a) Qual a mdia e varincia do peso dos animais selecionados? (b)
Baseando-se no coeficiente de variao, voc diria que o peso dos animais envolve um nvel
de incerteza maior que o da idade? (c) Baseando-se no IQV, voc diria que a incerteza
envolvendo a atual condio dos animais maior que aquela envolvendo seu nvel de
estresse? (d) Baseando-se em uma medida de posio, preveja o gnero e o peso de um 11
animal a compor a amostra. (e) Baseando-se na distribuio bivariada de frequncias
relativas, voc diria que h uma relao de dependncia entre o gnero e a atual condio
dos animais?
3. De maneira a administrar uma loja de artigos infantis, um gestor montou o seguinte
conjunto de dados, envolvendo o atendimento a 10 clientes:
Cliente
Instante de entrada na loja (horas)
Instante de sada da loja (horas)
Atendente
Quantia consumida (R$)
Legenda
Atendente: 0 - Ccera; 1 Maria
1
8.6
8.7
1
10.9
2
9.4
10
0
1.3
3
9.5
9.8
1
12.1
4
10.2
10.7
1
30
5
11.5
11.9
0
1.3
6
12.4
12.8
0
1
7
12.5
12.6
0
1.5
8
13.4
13.5
1
17.3
9
13.6
13.8
0
1.9
10
14
14.8
0
1.6
Indivduo
10
213.8
235.4
250.8
263.5
274.7
285.1
295.1
304.9
12
13
14
15
11
314.9 325.3
336.5
349.2
364.6
439.6
7. A tabela abaixo exibe o n de falhas em 100 demandas a cada um de 20 servidores
semelhantes, projetados e mantidos pela mesma equipe de profissionais. Na tabela os
dados foram oportunamente ordenados e envolvem-se um total de 23 falhas. Baseie-se
na abordagem frequentista da probabilidade e responda: Se um 21 servidor semelhante
aos que compem a amostra for posto em operao: (a) Qual a probabilidade de que
ele falhe quando demandado? (b) Se d-se uma garantia de no mximo uma falha nas
primeiras 100 demandas, qual a probabilidade de que o servidor satisfaa tal garantia?
(c) A partir de uma medida de posio, quantas falhas voc prev que ocorrero nas 100
primeiras demandas do servidor? (d) Baseando-se no ndice qualitativo de variao
(IQV) da varivel amostrada (n de falhas em 100 demandas), voc diria que sua
previso em (c) envolve um nvel de incerteza relativamente pequeno?
Servidor
n de falhas em
100 demandas
7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 1 1 1
GABARITO
1) Esta questo relaciona-se a conceitos bsicos necessrios anlise descritiva de dados.
1.a) A moda de um conjunto de observaes uma funo que estima aquele valor mais
provvel, verossmil, para a varivel de interesse. Em se tratando de variveis qualitativas,
tal funo opera simplesmente sobre o processo de contagem da frequncia de cada um dos
possveis resultados da varivel; nesta situao a moda retorna aquela categoria mais
frequente na amostra.
Por outro lado, em se tratando de variveis contnuas, uma abordagem mais sofisticada
necessria, devido a amostras de variveis contnuas tenderem a no apresentar valores
repetidos, por um lado, e, por outro, devido ao fato de que a eventual repetio de algum
valor no implicar em este ser necessariamente o mais provvel. De fato, para uma varivel
contnua, a moda se confunde matematicamente com o ponto de mximo da funo que
modelaria o histograma associado distribuio de frequncias da amostra, conhecida como
funo de densidade de probabilidade (FDP). Caso haja conhecimento sobre a FDP da
varivel, sua moda ser um ponto de mximo da FDP. Por outro lado, caso tenha-se acesso
apenas distribuio de frequncias da amostra da varivel, h aproximaes tais como a
moda de Czuber, onde a classe modal o intervalo que apresenta a maior frequncia
absoluta (ou relativa) da distribuio e sugere-se um valor para a moda dentro deste
intervalo:
sendo,
l - limite inferior da classe modal
freqm - freq da classe modal (mais frequente)
freqa - freq da classe anterior modal
freqp - freq da classe posterior modal
a = freqm freqa e p = freqm freqp
h - amplitude da classe modal.
Logo, a afirmao est INCORRETA.
1.b) O ndice qualitativo de variao (IQV) dado pela funo
k
IQV =
k (n 2 ni2 )
i =1
, onde
n 2 (k 1)
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias de interesse;
n nmero de observaes envolvidas
ni frequncia absoluta da categoria i.
V-se que o IQV sempre opera sobre as frequncias, independentemente da natureza das
classes (categorias) relacionadas a tais frequncias. Logo, tal medida pode ser aplicada a
qualquer tipo de varivel, j que para qualquer tipo pode-se obter uma distribuio de
frequncias diante de uma amostra.
Portanto, a afirmao est INCORRETA.
2) Esta questo trata estritamente do suporte a tomada de deciso fornecido pela estatstica
descritiva quando diante de um conjunto de dados.
2.a) Pede-se a mdia e a varincia do peso dos animais estudados. Seja xi "o peso do i
animal avaliado (em kg)", onde i varia entre 1 e 10 (estuda-se n=10 animais).
Pede-se
n
i =1
(x
s
2
peso
x) 2
i =1
n 1
x
x idade =
i =1
n
n
(x
x) 2
2
s idade
=
i =1
cv idade =
s idade
x idade
138.76 11.78
=
= 0.539.
21.87
21.87
IQV =
k (n 2 ni2 )
i =1
, onde
n (k 1)
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias;
n nmero de observaes envolvidas
ni frequncia absoluta da categoria i.
2
Frequncia
6
4
10
Nvel de
Estresse
1 - desprezvel
2 - baixo
3 moderado
4 elevado
5 alarmante
Total
Frequncia
3
3
2
1
1
10
2(10 2 (6 2 + 4 2 ))
= 0.96 .
10 2 (2 1)
Logo, como o IQV assume valores entre 0 (nenhuma variao observada) a 1 (a maior
variao observvel), considera-se que a varivel "condio atual" apresenta uma
variabilidade relativamente elevada.
5(10 2 (32 + 32 + 2 2 + 12 + 12 ))
= 0.95 .
10 2 (5 1)
Considera-se assim que a variabilidade associada ao "nvel de estresse" relativamente
elevada. Contudo, conclui-se tambm que esta variabilidade menor que a da atual
condio observada entre os animais.
Frequncia
6
4
10
Peso ordenado
(yi)
66.2
98.7
121.2
130.5
134.9
136.7
139.1
157.5
9
208.3
10
216.5
Como a questo envolve um n par de (n=)10 indivduos, a mediana seria o valor que se
encontraria entre as posies n/2=5 e n/2+1=6 dos dados ordenados (y5 e y6). Tal valor
representado pelo ponto mdio entre os valores ordenados y5 e y6:
Mediana = (y5 + y6)/2 = (134.9 + 136.7)/2 = 135.8 kg.
Assim, sem tantos clculos, pode-se prever que o peso do animal ser algo em torno de
135.8 kg.
Note-se as complicaes adicionais caso opte-se por recorrer mdia ou moda. A
primeira envolveria a soma das 10 observaes e a segunda necessitaria da elaborao
da distribuio de frequncias da varivel de interesse em face aos dados. De qualquer
forma, a ttulo de ilustrao, ter-se-ia a seguinte previso baseando-se na mdia ( x ),
como visto no quesito (a):
n
i =1
n O n de observaes
min O valor mnimo observado
max O valor mximo observado
( n)
min+h
min+2h
...
max-h
max
Dos dados do quesito, convenientemente ordenados para o clculo da mediana, temos que
n=10, min=66.2, max=216.5, k = Int n =Int(3.33)=3, h=(216.5-66.2)/3=50.1. Isto leva
seguinte distribuio de frequncias:
ndice da categoria
/ intervalo (i)
Intervalo
Frequncia(ni)
1
[66.2, 116.3) 2
2
[116.3, 166.4) 6
( )
[166.4, 216.5] 2
10
a
h
Moda = l +
a + p
Onde Czuber sugere um valor para a moda dentro do intervalo (classe) modal. O intervalo
modal aquele que apresenta uma maior frequncia (absoluta ou relativa). Neste caso, o
intervalo modal dado por [116.3, 166.4). Alm disso,
l limite inferior da classe modal: l = 116.3
nm freq da classe modal (mais frequente): nm = 6
na freq da classe anterior modal na = 2
np freq da classe posterior modal: np = 2
a = nm na e p = nm np (a = 6 - 2 = 4, p = 6 - 2 = 4)
h amplitude da classe modal: h = 166.4 116.3= 50.1.
Logo, Mo = 116.3+ (4/8) 50.1=141.35 kg. Assim, prev-se que mais provavelmente o peso do
animal ser algo em torno de 141.35 kg.
2.e) Este quesito permite o uso de conceitos da Estatstica Descritiva, bem como do Clculo
de Probabilidades, para argumentar sobre a (in)dependncia entre duas variveis.
Especificamente, tratam-se aqui das variveis gnero (G) e atual condio (A) dos
animais estudados. Estatisticamente, caso a distribuio de frequncias relativas de A se
mantiver semelhante ao longo das classes de G, ento pode-se inferir que independente do
gnero, as incertezas sobre a atual condio se mantm semelhantes. Probabilisticamente, se
houver independncia P(A|G) = P(A). Em ambos os casos, descreve-se matematicamente
que, caso sejam independentes, o gnero no interfere na atual condio do animal.
As distribuies bivariadas de frequncias absolutas e relativas destas variveis encontramse abaixo. Sobre a montagem da distribuio bivariada de frequncias absolutas, note-se
que em quatro casos observou-se o evento A=0G=0 (os indivduos de n 1, 3, 8 e 9), em
dois casos observou-se o evento A=1G=0 (os indivduos 4 e 10), e assim por diante.
Sobre a distribuio bivariada de frequncias relativas, trata-se apenas da razo entre as
respectivas frequncias absolutas e o n de indivduos estudados (n=10).
Distribuio Bivariada: Frequncias
absolutas
Gnero (G)
Atual
Condio Feminino Masculino
(A)
(0)
(1)
Total
Gnero (G)
Atual
Condio Feminino Masculino
(A)
(0)
(1)
Total
Sem
aftosa (0) 4
Sem
aftosa (0) 0.4
0.2
0.6
4
10
Com
aftosa (1) 0.2
Total
0.6
0.2
0.4
0.4
1
Com
aftosa (1) 2
Total
6
2
2
4
3) Esta questo trata estritamente do suporte a tomada de deciso fornecido pela estatstica
descritiva e da probabilidade quando diante de um conjunto de dados.
3.a) O coeficiente de variao (cv) uma medida adimensional que permite a mensurao
da incerteza refletida no desvio padro (s) em relao mdia, de tal forma que, para
variveis que assumem valores no negativos, quanto mais prximo de zero for o cv menor
ser a incerteza sobre a varivel. Por ser adimensional o cv facilita a comparao de
variabilidade entre variveis quantitativas. Matematicamente, trata-se da razo entre desviopadro e mdia:
s
cv = .
x
Para o caso da varivel tempo de permanncia do cliente na loja, que trata-se da diferena
entre os instantes de entrada e sada do cliente na loja, tem-se o seguinte conjunto de
observaes:
Cliente (i)
Instante de entrada na loja (horas) (yi)
Instante de sada da loja (horas) (wi)
Tempo de permanncia em horas
(xi=wi-yi)
1
8.6
8.7
2
9.4
10
3
9.5
9.8
4
10.2
10.7
5
11.5
11.9
6
12.4
12.8
7
12.5
12.6
8
13.4
13.5
9
13.6
13.8
10
14
14.8
0.1
0.6
0.3
0.5
0.4
0.4
0.1
0.1
0.2
0.8
i =1
10
( x
s
2
tempo permanncia
x) 2
i =1
n 1
0.505
= 0.056 (horas) 2 .
9
s tempo
0.056
= 0.676. Assim, considera-se que a
0.35
x tempo permanncia
variabilidade do tempo de permanncia dos clientes na loja elevada, cerca de 67.6% em
relao mdia.
Logo, cv tempo
permanncia
permanncia
x
x quantia consumida =
n
n
(x
2
s quantia
consumida =
i =1
x) 2
i =1
n 1
854.789
= 94.977 (R$) 2 .
9
s quantia
94.977
= 1.235. Assim, considera-se que a
7.89
x quantia consumida
variabilidade do tempo de permanncia dos clientes na loja bastante elevada, 123.5% em
relao mdia.
Logo, cv quantia
consumida
consumida
IQV =
k (n 2 ni2 )
i =1
, onde
n 2 (k 1)
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias;
n nmero de observaes envolvidas
ni frequncia absoluta da categoria i.
Frequncia
11
Ccera (0)
Maria (1)
Total
(ni)
6
4
10
2
3
0.6 0.3
0
1
4
0.5
1
5
0.4
0
6
0.4
0
7
0.1
0
8
0.1
1
9
0.2
0
10
0.8
0
Atendente (A)
Ccera (0) Maria (1)
2
3
2
1
2
0
6
4
Total
5
3
2
10
Tempo de
Permanncia (T)
[0.1,0.333) (0)
[0.333,0.567) (1)
[0.567,0.8] (2)
Total
Atendente (A)
Ccera (0) Maria (1)
0.2
0.3
0.2
0.1
0.2
0.0
0.6
0.4
Total
0.5
0.3
0.2
1
12
4) Para esta questo, temos as seguintes distribuies de frequncia para a renda familiar:
Faixa de renda
(R$)
I
1
2
3
Faixa
[0, 200)
[200, 400)
[400, 600)
ponto mdio da
faixa i
Frequncia
absoluta
Frequncia Frequncia
relativa
acumulada
relativa
x*i
100
300
500
ni
300
400
200
fi
0.30
0.40
0.20
Fi
0.30
0.70
0.9
13
700
900
-
60
40
1000
0.06
0.04
1.00
0.96
1
-
n x
*
i i
x=
i =1
4.b) Pede-se a moda do n de dependentes da renda, isto , aquele valor que representa a
maioria das observaes. A moda pode ser obtida a partir da frmula de Czuber:
onde,
A classe modal aquela que apresenta uma maior frequncia absoluta (ou relativa).
Sugere-se um valor para a moda dentro deste intervalo. Neste caso, o intervalo modal
dado por [3, 5).
l - limite inferior da classe modal (l = 3)
freqm - freq da classe modal (mais frequente) (freqm = 500)
freqa - freq da classe anterior modal (freqa = 200)
freqp - freq da classe posterior modal (freqp = 200)
a = freqm freqa e p = freqm freqp (a = 500 - 200 = 300, p = 500 - 200 =
300)
h - amplitude da classe modal(h = 5 - 3 = 2).
Logo, Mo = 3 + (300/600)2 = 4. Assim, mais comumente, cerca de 4 pessoas
dependem da mesma renda.
4.c) Pergunta-se sobre a mediana da renda familiar, isto , aquele valor que se localizaria no
centro dos dados ordenados. Da distribuio de frequncias acumuladas relativas, v-se que
o valor que acumula abaixo dele 50% das rendas estar no intervalo [200, 400). Para dados
agrupados, a mediana ser obtida a partir da igualdade
0.5 Fa
, onde
Md = l + h
f
md
Classe mediana: aquela que envolve a mediana. Trata-se da classe cuja frequncia
relativa acumulada at o seu incio no ultrapassa os 50% e a frequncia relativa
acumulada at o seu final ultrapassa os 50%. Disto, v-se que a classe mediana do
problema em questo o intervalo [200, 400).
l limite inferior da classe mediana (l = 200)
h amplitude (comprimento) da classe mediana (h = 400 - 200 = 200)
Fa frequncia relativa acumulada da classe anterior classe mediana (Fa = 0.3)
14
IQV =
k (n 2 ni2 )
i =1
, onde
n (k 1)
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias;
n nmero de observaes envolvidas
ni frequncia absoluta da categoria i.
2
15
x=
x
i =1
.
n
V-se, com isso, que apenas variveis quantitativas permitem a sua aplicao; j que tal
funo envolve operaes de soma e diviso, incompatveis, por sua vez, aos resultados
categricos das variveis qualitativas; isto , as observaes (x1, x2, ..., xn) devem ser
quantidades e no qualidades. Logo, a afirmao est incorreta.
5.d) A moda representa o valor mais frequente de um conjunto de observaes (x1, x2,
..., xn). Logo, como trata-se basicamente de uma operao de contagem de ocorrncias,
que independe de as observaes serem qualidades ou quantidades, a moda pode ser
aplicada a qualquer tipo de varivel. Logo, a afirmao est incorreta.
5.e) A argumentao aqui assemelha-se do quesito 5.c, sobre a mdia. A varincia de
n
uma amostra de observaes (x1, x2, ..., xn) dada pela funo s 2 =
(x
i =1
x) 2
.
n 1
V-se, com isso, que apenas variveis quantitativas permitem a sua aplicao; j que tal
funo envolve operaes de soma, subtrao, potncia e diviso, incompatveis, por
sua vez, aos resultados categricos das variveis qualitativas; isto , as observaes (x1,
x2, ..., xn) devem ser quantidades e no qualidades. Logo, a afirmao est incorreta.
5.f) Como o n de dependentes de uma famlia pode assumir qualquer valor inteiro nonegativo, por um lado, e, por outro, medido a partir de um processo de contagem,
conclui-se que trata-se de uma varivel quantitativa discreta. Logo, a afirmao
incorreta.
5.g) Como a classe social um atributo, v-se que trata-se de uma varivel qualitativa.
Alm disso, v-se que pode-se aplicar uma ordenao aos possveis resultados desta
varivel. Por exemplo, pode-se concluir que a classe A representa um patamar de renda
mais elevado que o da B. Logo, trata-se de uma varivel ordinal. Assim, a afirmao
incorreta.
16
Por outro lado, note-se que o conjunto apresentado pelo enunciado X ={0, 1, 2, ...}
envolve apenas os valores inteiros contidos nos reais no negativos. Por exemplo, tal
conjunto no envolve como possvel resultado para X o valor 2.5 meses, isto , a idade
dois meses e meio. Desta forma X no seria adequado para representar todos os
possveis resultados de X. Logo, a afirmao est INCORRETA.
5.j) Neste quesito destaca-se que todas as n observaes da amostra estariam
concentradas em uma s categoria, diga-se a categoria j. Dessa forma, baseando-se na
amostra, no seria to incerta a previso sobre o resultado de uma futura observao: a
previso certamente apontaria para a categoria j.
k (n 2 ni2 )
i =1
n 2 (k 1)
onde
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias de
interesse;
n nmero de observaes envolvidas
ni frequncia absoluta da categoria i.
De maneira a responder ao quesito, estudemos o caso onde a amostra apresenta a menor
variabilidade possvel, tal como descrito no quesito anterior: quando todas as
observaes se concentram em uma das categorias da varivel, diga-se a categoria j.
Nesses casos, ni=n, se i=j, e ni=0 caco contrrio (se ij), isto , a distribuio de
frequncias absolutas dada pela tabela abaixo:
Categoria (i) Frequncia absoluta (ni)
1
0
2
0
...
...
j-1
0
j
n
j+1
0
...
...
k
0
soma
n
k (n 2 n 2 )
= 0. Logo, o caso de
n 2 (k 1)
i =1
incerteza mnima a partir dos dados reflete-se em um IQV igual a zero, ou 0%. Assim, a
afirmao est INCORRETA.
ni2 = n 2 e IQVmnimo =
5.l) Na verdade, a frequncia relativa de dada categoria de uma varivel se d pela diviso
de sua frequncia absoluta pelo n de observaes da amostra sob estudo. Em outros termos,
tratam-se de frequncias relativas ao tamanho amostral e no ao nmero de categorias da
varivel. Matematicamente, seja ni a frequncia absoluta (o n de ocorrncias) da categoria i
na amostra, onde i=1, 2,..., k. Seja n o tamanho da amostra sob estudo. Ento,
k
n=
n
i =1
18
19
20
x=
x
i =1
( n)
min
min+h
min+2h
...
max-h
max
( )
distribuio de frequncias:
ndice da
categoria (i)
1
2
3
4
Frequncia
Intervalo absoluta (ni)
[160.4, 230.2) 2
[230.2, 300.0) 6
[300, 369.8) 6
[369.8, 439.6) 1
Soma
15
Da distribuio de frequncia, ainda em busca da moda, pode-se recorrer moda de Czuber
(Mo):
a
Mo = l +
h'
a p
Onde Czuber sugere um valor para a moda dentro do intervalo (classe) modal. O intervalo
modal aquele que apresenta uma maior frequncia (absoluta ou relativa). Neste caso, o
21
k n 2 n i2
IQV = 2 i =1 , onde
n (k 1)
Assim como no quesito anterior, apresentam-se tambm medidas alternativas ao IQV para
responder ao atual quesito:
Amplitude = max-min = R$ 279.16
Varincia:
n
s2 =
(x
x) 2
=
n 1
(106.4 294.3) 2 + (213.8 294.3) 2 + ... + (439.6 294.3) 2
= 4539.14(R$) 2
15 1
i =1
22
Em resumo, tanto o IQV quanto o cv sugerem que o decisor encare como natural um
eventual distanciamento entre o valor previsto e o observado: o IQV baseando-se na
disperso relativa distribuio de frequncias e o cv baseando-se na disperso relativa
mdia.
6.d) Para este quesito, como trata-se de uma varivel quantitativa contnua, recorre-se a um
histograma. Um histograma nada mais que o esboo da distribuio de frequncias de uma
varivel quantitativa, onde no eixo das abscissas (x) encontram-se os intervalos da
distribuio de frequncias e no das ordenadas (y) as respectivas frequncias. O histograma
destaca que a maior parte dos dados encontra-se no intervalo [230, 370). Dentre as 15
observaes, apenas 3 observaes encontram-se fora deste intervalo.
Vale destacar que no haveria sentido adotar grficos tais como o de pares, uma vez que
como trata-se de uma varivel contnua, a frequncia de cada valor da amostra seria sempre
equivalente a 1 e o grfico seria o esboo dos prprios dados, gerando pouca ou nenhuma
informao. Da mesma forma, um grfico onde o eixo das abscissas seria o rtulo do
indivduo e o das ordenadas o custo requer cautela, j que de acordo com o enunciado os
dados foram apresentados ordenadamente apenas por convenincia, para facilitar os
clculos estatsticos demandados pelos quesitos, por um lado, e, por outro, tal grfico requer
maiores sofisticaes para a leitura da variabilidade.
23
24
0
5
1
9
2
4
3
2
IQV =
k (n 2 n i2 )
i =1
, onde
n 2 (k 1)
k nmero de classes (ou categorias) envolvidas na distribuio de frequncias;
n nmero de observaes envolvidas (tamanho da amostra)
ni frequncia absoluta da categoria i.
25
26
27