Escolar Documentos
Profissional Documentos
Cultura Documentos
Definio do problema:
Planejamento
Coleta dos dados
Crtica dos dados
Apresentao dos dados
tabelas
grficos
Descrio dos dados
Nesse captulo veremos como podem ser feitas tais apresentaes (e descries
resumidas) dos dados.
Em estatstica descritiva teremos portanto dois mtodos que podem ser usados
para a apresentao dos dados: mtodos grficos (envolvendo apresentao grfica e/ou
tabular) e mtodos numricos (envolvendo apresentaes de medidas de posio e/ou
disperso).
13
INF 162
Enquanto as tabelas fornecem uma idia mais precisa e possibilitam uma inspeo
mais rigorosa aos dados, os grficos so mais indicados em situaes que objetivam dar
uma viso mais rpida e fcil a respeito das variveis s quais se referem os dados.
Embora a confeco de grficos dependa muito da habilidade individual, algumas
regras gerais so importantes. O leitor deve ficar atento e procurar saber sobre tais regras
antes de se envolver na confeco de grficos.
Existem vrios tipos de grficos que podem ser utilizados com o objetivo de
descrever um conjunto de dados resumidamente. Alguns deles sero aqui exemplificados.
Vejamos, primeiro, uma forma tabular de apresentao de dados e, a seguir,
veremos 3 tipos de apresentao grfica.
Distribuio de frequncia
Organizao tabular dos dados em classes de ocorrncia, ou no, segundo suas
respectivas frequncias absolutas. Em alguns casos h tambm o interesse de se
apresentar os dados em frequncias relativas ou acumuladas.
A apresentao dos dados em tabelas obedecem a certas normas e recomendaes.
Essas normas so teis para que as tabelas sejam feitas de modo que simplicidade,
clareza e veracidade perdurem. Diferentes revistas costumam usar pequenas variaes na
confeco de suas tabelas. Uma observao importante que as tabelas devem ter
significado prprio, ou seja, devem ser entendidas mesmo quando no se l o texto em
que esto apresentadas. O mesmo vlido para as tabelas de distribuio de frequncias.
exemplo:
Foram anotados os pontos finais dos alunos de INF 160, referentes ao segundo
semestre de 1999. Foi feita a contagem e depois a organizao dos dados na seguinte
tabela:
Conceitos (Notas) Nmero de alunos Porcentagem
A (90 a 100)
14
7,07
B (75 a 89)
32
16,16
C (60 a 74)
50
25,25
R (< 60)
63
31,82
L 1/
39
19,70
198
100,00
FONTE: Departamento de Informtica UFV;
1/
Reprovao por faltas.
16,40
17,21
16,35
16,52
17,04
14
16,96
17,15
16,59
16,57
INF 162
|
16,00
|
16,50
|
17,00
|
17,50
|
18,00
Observe que os dados esto centrados num valor prximo de 16,8 e que os valores
da tenso de aderncia caem no intervalo de cerca de 16,3 at 17,2 ud/cm2.
Este tipo de diagrama pode tambm ser usado para se comparar dois ou mais
conjuntos de dados. Por exemplo suponha ter sido verificado a tenso de aderncia em
cimentos no modificados. Os resultados so apresentados abaixo.
17,50
17,63
18,25
18,00
17,86
17,75
18,22
17,90
17,96
18,15
Faa voc mesmo o diagrama de pontos para os dois cojuntos de dados, ou seja,
colocando ambos os conjuntos de dados no mesmo diagrama. Observe que o diagrama
revela imediatamente que o cimento modificado parece ter uma menor fora de tenso de
aderncia, mas que a variabilidade das medidas dentro de ambos os conjuntos de dados
parece ser a mesma.
Testes estatsticos para verificar essas duas afirmativas podem ser realizados com
esses dados apresentados, e sero discutidos no momento oportuno.
Quando o nmero de observaes pequeno, geralmente se torna difcil
identificar algum padro especfico de variao. No entanto este tipo de diagrama pode
ser til em mostrar alguma caracterstica incomum no conjunto de dados.
89
83
74
94
87
72
110
75
68
74
114
83
122
85
91
112
69
90
15
95
94
102
100
124
77
78
115
125
65
107
108
60
88
65
INF 162
6
7
8
9
10
11
12
0,5,5,8,9
2,4,4,5,7,8
2,3,3,5,7,8,9
0,0,1,4,4,5,7
0,2,7,8
0,2,4,5
2,4,5
Histograma
Para alguns conjuntos de dados o nmero de valores distintos da varivel em
estudo muito grande para serem considerados os tipos de apresentao grfica
apresentados acima. Em tais casos seria til dividir os valores em grupos, ou intervalos de
classe, e ento plotar o nmero de valores dos dados correspondentes a cada intervalo de
classe. Existem vrias frmulas para se estabelecer o nmero de classes, porm qualquer
nmero de classes poderia ser utilizado, baseando-se nas seguintes observaes:
(a) no escolher muito poucas classes, para evitar perda de informao sobre os dados;
(b) no escolher muitas classes, o que poderia fazer com que as frequncias referentes a
cada classe fossem to pequenas a ponto de atrapalhar o discernimento de algum
padro de distribuio para a varivel em estudo.
O que se faz na prtica tentar variados nmeros de classes e verificar, com a
ajuda de um computador, o nmero ideal para os dados em questo. Alm disso,
comumente usamos intervalos de classe de iguais amplitudes.
exemplo: (envolvendo distribuio de frequncia e histograma, com algumas variaes)
Suponhamos que uma empresa deseja avaliar a distribuio dos salrios pagos por
hora a seus funcionrios. O estatstico da empresa possui os seguintes dados:
13,3
11,5
10,4
15,2
12,6
11,6
12,4
10,7
12,4
15,8
12,6
12,9
9,6
9,7
11,6
10,4
12,1
10,3
13,2
13,5
14,2
8,8
10,3
13,8
8,3
14,3
8,5
9,8
10,2
12,3
INF 162
Agora podemos ter uma idia da distribuio dos salrios. Apenas com essas
informaes poderamos concluir que a classe de salrios predominante na empresa a
terceira, ou seja, com salrios de 11,3 a 12,8 salrios mnimos.
Se quisssemos obter maiores informaes sobre os dados, poderamos montar
uma nova tabela, incluindo outros tipos de frequncia, como: frequncia acumulada (fa),
frequncia relativa (fr), e frequncia acumulada relativa (far).
Classes
8,3 9,8
9,8 11,3
11,3 12,8
12,8 14,3
14,3 15,8
fi
5
7
9
6
3
30
fai
5
12
21
27
30
fri
0,17
0,23
0,30
0,20
0,10
1,00
fari
0,17
0,40
0,70
0,90
1,00
Discusso: exemplos
- na terceira coluna, a frequncia acumulada 21 indica que , nessa empresa, 21
funcionrios recebem salrios/hora abaixo de 12,8 unidades;
- Podemos constatar, tambm, uma certa predominncia de salrios mais baixos.
Realmente cerca de 70% da distribuio de salrios concentra-se at o salrio de 12,8
unidades;
- Os maiores salrios serve a apenas 10% dos funcionrios da empresa.;
- 40% dos funcionrios (12 funcionrios) recebem at 11,3 unidades, sendo 23% (ou
seja, 7 funcionrios) recebendo entre 9,8 e 11,3 unidades.
Essas informaes preliminares, bem como outras, seriam impossveis de serem
obtidas se a populao de funcionrios fosse muito maior e os dados correspondentes no
estivessem tabelados.
O histograma pode ser feito a partir das frequncia simples de cada classe ou a
partir das frequencias relativas. Bastaria informar corretamente o que seria usado no eixo
vertical.
INF 162
x=
i =1
.
n
obs.: o clculo da mdia pode ser frequentemente simplificado se observarmos que, para
quaisquer contantes a e b
y i = axi + b,
i = 1, n.
de modo que a mdia amostral do novo conjunto de dados ser:
n
y=
yi
i =1
(axi + b)
i =1
axi + b
i =1
i =1
= ax + b
exemplo:
Considere o seguinte conjunto de dados:
284, 280, 277, 282, 279, 285, 281, 283, 278, 277
encontre a mdia desses valores.
soluo:
uma soluo a seguinte: ao invs de adicionar esses valores diretamente, fica mais fcil
se subtrarmos 280 de cada um para obter os novos valores y i = xi 280 :
4, 0, -3, 2, -1, 5, 1, 3, -2, -3.
A mdia dos valores transformados ser:
y = 6 / 10 = 0,6.
Desse modo,
18
INF 162
x = y + 280 = 280,6.
Algumas vezes queremos determinar a mdia de um conjunto de dados
organizados em uma tabela de distribuio de frequncias onde os k valores distintos de X
(x1, x2, , xk) ocorrem nas respectivas frequncias f1, f2, , fk. Nesse caso a mdia
aritmtica ser dada por:
k
x=
fx
i
i =1
, onde n = f i
i =1
Frequncia
2
5
11
9
14
13
19
INF 162
soluo:
j que temos 54 observaes, segue que a mediana amostral ser a media dos valores
ocupando as posies 27 e 28, quando essas 54 observaes so organizadas em ordem
crescente. Portanto a mediana ser o valor 18,5.
OBS.: a escolha entre media e mediana depende do tipo de informao o pesquisador
tenta obter dos dados. A media afetada por valores extremos ocorrendo na
distribuio, enquanto a mediana faz uso de apenas um ou dois valores centrais,
no sendo, portanto, afetada por valores extremos.
! Moda amostral
Outra estatstica que tem sido usada para indicar a tendncia central de um
conjunto de observaes a moda amostral. Ela definida como o valor que ocorre com
maior frequncia. Podemos ter sries unimodais, bimodais ou multimodais, dependendo
do nmero de valores modais ocorrendo na amostra.
exemplo:
encontre a moda para o mesmo exemplo acima.
soluo:
a moda ser o valor 19, pois esse valor ocorre com maior frequncia na distribuio. Essa
uma distribuio unimodal.
Medidas de Disperso
Essas medidas so teis para complementar as informaes fornecidas pelas
medidas de posio. Descrevem a variabilidade ocorrendo no conjunto de dados sendo
analisados.
! Varincia amostral
A varincia amostral de um conjunto de dados, x1, x2, , xn, definida por
n
(x
x)2
SQD x
,
n 1
n 1
onde SQDx corresponde soma de quadrados dos desvios de X.
exemplo:
encontre a varincia amostral para os dois conjuntos de dados abaixo:
A: 3, 4, 6, 7, 10
B: -20, 5, 15, 24
soluo:
a mdia para o conjunto A 6; portanto a varincia ser:
s2 =
i =1
20
INF 162
Portanto, apesar dos dois conjuntos terem a mesma mdia, h maior variabilidade
nos valores do conjunto B do que nos do conjunto A.
Para o clculo da varincia til se faz a seguinte identidade algbrica:
n
xi
n
n
n
( x i x ) 2 = x i2 nx 2 = x i2 i =1
n
i =1
i =1
i =1
Tambm, o clculo da varincia pode ser simplificado por notar que se:
y i = axi + b ,
i = 1, , n
ento, como visto atrs, y = ax + b e, ento
n
i =1
i =1
( y i y ) 2 = a 2 ( xi x ) 2
ou seja, adicionando uma constante a cada valor do conjunto de dados no altera a
varincia amostral; enquanto multiplicando-se cada valor por uma constante, a nova
varincia amostral ser igual a varincia original multiplicada pelo quadrado da
constante.
exemplo:
O conjunto de dados abaixo fornece o nmero mundial de acidentes areos fatais
de aeronaves comerciais nos anos de 1985 a 1993.
Ano
1985
Acidentes 22
1986
22
1987
26
1988
28
1989
27
1990
25
1991
30
1992
29
1993
24
yi = 35,
i =1
= 203 .
i =1
x
i i
i i i
2
=
s =
fi 1
fi 1
i
21
INF 162
s = s2 =
(x
i =11
x) 2
n 1
Existem outras medidas tambm teis para representar a disperso dos dados.
Poderamos citar: Amplitude Total, Erro padro da mdia, Coeficiente de variao.
! Amplitude total
A amplitude total a diferena entre o maior e o menor valor da srie. Tem a
vantagem de ser rpido e fcil de ser calculada, porm fornece um nmero ndice
grosseiro da variabilidade de uma distribuio, por levar em conta apenas 2 valores de
um conjunto.
! Erro-padro da mdia
O erro-padro da mdia mede a preciso da mdia. Sua frmula dada por:
s 2X
s
s( X ) = V ( X ) =
= X
n
n
! Coeficiente de Variao
O coeficiente de variao uma medida de disperso relativa. uma medida til
para comparao, em termos relativos, do grau de concentrao, em torno da mdia, de
sries distintas. Por ser um nmero admensional permite a comparao de sries de
variveis com unidades diferentes. Sua frmula dada por:
s (X)
C.V. (%) =
100
X
OBS.: se existem duas amostras distintas A e B, e se desejamos saber qual delas a mais
homognea, ou seja, de menor variabilidade, basta fazermos o seguinte: calculamos as
mdias e os desvios padres de A e B, e:
- se X A = X B , ento o prprio desvio padro informar qual a mais homognea.
- se X A X B , ento a mais homognea ser a que tiver menor C.V.
OBS.: valores muito altos de C.V. indicam pequena representatividade da mdia.
exemplo:
Supor duas amostras:
A={1, 3, 5}
B={53, 55, 57}
Qual das duas a mais homognea?
soluo:
C.V.A = 2/3(100) = 66,7%
C.V.B = 2/55(100) = 3,6%
22
INF 162
Exerccios Propostos
1) Considerando os dados amostrais abaixo, calcular: mdia aritmtica, varincia, desvio
padro, erro padro da mdia e coeficiente de variao
Dados: 2, 3, 5, 1, 2, 1, 4, 3, 3, 4, 3.
R.:2,81; 1,56; 1,24; 0,37; 44,12%
2) Em certa regio a temperatura mdia 20 0C e a precipitao mdia 700 mm. O
desvio padro para temperatura 3 0C, enquanto que a varincia para a precipitao
1225 mm2. Qual dos dois fenmenos apresenta maior variabilidade? Justifique.
R.: a temperatura apresenta maior variabilidade relativa. Voc justifica
3) Um artigo retirado da revista Technometrics (Vol. 19, 1977, p. 425) apresenta os
seguintes dados sobre a taxa de octanagem de vrias misturas de gasolina:
88,5
91,1
88,2
90,1
92,3
91,2
91,1
91,2
87,7
91,0
90,8
89,2
90,4
89,3
90,4
91,0
83,4
94,2
88,3
88,3
90,1
94,4
89,3
92,2
86,7
87,8
98,8
85,3
93,0
92,7
89,7
90,0
87,5
89,9
94,2
87,9
88,7
91,8
90,3
90,7
91,5
88,3
92,7
88,6
89,9
91,6
91,6
88,6
87,6
93,2
90,9
89,8
90,4
90,5
100,3
84,3
91,0
89,0
89,6
91,1
93,7
96,5
86,7
90,1
96,1
87,4
92,6
92,7
93,3
84,3
93,4
93,3
88,4
89,8
92,2
94,7
86,7
88,5
91,8
88,9
90,6
92,2
4,1
3,8
3,1
3,2
3,5
3,1
3,3
2,6
4,5
4,7
3,1
3,9
3,2
3,7
3,7
3,0
3,7
2,5
4,4
4,2
3,0
4,3
3,2
3,5
2,6
3,4
4,1
3,4
3,6
1,9
23
1,6
2,9
3,4
3,1
3,3
4,7
INF 162
24
INF 162
10
Peso (kg)
23,0
22,7
21,2
21,5
17,0
28,4
19,0
14,5
19,0
19,5
Comprimento (cm)
104
105
103
105
100
104
100
91
102
99
INF 162
1a
2a
3a
4a
Optativa
2,5
4,5
5,0
6,0
7,0
2,0
8,5
7,0
3,0
5,0
8,5
10,0
9,0
8,5
nc
3,5
5,5
8,5
7,5
6,5
3,0
5,0
6,0
4,5
5,0
6,0
3,0
4,0
5,0
2,0
8,0
1,5
2,0
9,0
5,0
1,5
2,0
1,0
2,5
nc
7,5
8,0
8,5
10,0
nc
10
5,5
4,5
5,0
4,5
2,5
Estudantes
Sabendo-se que a nota da prova optativa substitui a menor nota das provas
precedentes, determine:
a) Mdia de cada estudante;
b) Para cada prova: mdia, moda, mediana, varincia, desvio-padro, erro-padro da
mdia e CV.
c) Para o perodo: mdia, varincia, desvio-padro, erro-padro da mdia, CV.
d) Liste as provas em ordem crescente de homogeneidade.
26
INF 162
RESPOSTAS
1.a ) X = 20,58kg;Y = 101,3cm
b)V (X ) = 14,2973kg 2 ;V (Y ) = 17,7889cm 2
c)s(X ) = 3,7812kg; s(Y ) = 4,2177cm
d )s(X ) = 1,1957kg; s(Y ) = 1,3338cm
e)CV X = 18,37%;CVY = 4,16%
3. a) X = 11,4; Md = 12; Mo = 12
4. Turma B
5.
a)
Estudante
Mdia
10
5,33
6,50
9,17
7,00
5,25
3,83
5,17
1,67
8,42
4,50
b)
1a
2a
3a
4a
6,05
5,50
5,60
5,85
Mo
2; 4,5; 5
5; 8,5
2,5
Md
6,25
5,0
5,5
5,5
s2
4,02
6,94
7,54
7,78
2,01
2,64
2,75
2,79
s( X )
0,63
0,83
0,87
0,88
CV(%)
33,16%
47,91%
49,05%
47,68%
Arguio
27